logo
26 Nov 2021

Data science – зачем нужна наука о данных

Ирина Малашенко

Автор полезных текстов и историй в MC.today

В 2021 году в рекрутинговом агентстве CNA International IT провели исследование о том, каких специалистов сейчас не хватает на IT-рынке Украины. Одним из них оказался data scientist. Причем если джунов в этой сфере много, то более опытных – data scientist уровня мидл или сеньор – найти очень сложно.

Редакция MC.today выяснила, что такое data science, кто первый ввел этот термин, какие обязанности у data scientist, что он должен знать и с чего стоит начать изучение профессии. 

Что такое data science

Data science – это наука о данных. Она изучает, как правильно анализировать, обрабатывать и предоставлять данные. Это всегда работа с большими массивами информации, или с big dataот англ. большой объем данных.. При необходимости в любых данных можно выявить закономерность и правильно структурировать информацию

Например, определить средний показатель температуры зимой за 100 лет или проанализировать статистику запросов по IT-курсам в поисковых системах.

В повседневной жизни люди уже давно пользуются такими структурированными данными: с их помощью можно забронировать отель, заказать пиццу или выбрать статью на MC.today. Списки любых рекомендаций – будь-то друзей или музыки – тоже результат обработки большого количества данных.

Список рекомендаций. Источник: MC.today

Список рекомендаций. Источник: MC.today

Большие объемы информации – big data – хранятся на серверах банков, мобильных операторов и соцсетей. Как правило, это личная информация о пользователе, месте и дате его рождения, номер телефона. 

Часто мошенники взламывают такие базы и личная информация пользователей попадает в общий доступ. Самый крупный взлом был в 2019 году. Тогда 533 млн учетных записей Facebook слили в сеть

История возникновения data science

Data science объединяет разные области знаний: информатику, математику и системный анализ. Вот почему еще 50 лет назад огромными базами данных занимались математики и статистики. Но с 1974 года все начало постепенно меняться.

Датский программист Петер Наур. Источник: Wikipedia

Датский программист Петер Наур. Источник: Wikipedia

Тогда вышла книга датского программиста Петера Наура «Краткий обзор компьютерных методов». В ней впервые упоминается понятие data science. Так Петер определил науку, которая работает с цифровыми данными: с момента их появления и до того, как их проанализируют, структурируют и начнут использовать в разных сферах.

Постепенно понятие data science стали употреблять все чаще. В начале 2000-х один за другим выходят журналы, название которых совпадает с названием дисциплины. Например, Data Science Journal американского комитета по науке и технике и The Journal of Data Science Колумбийского университета. 

С 2010 года стали проводить профессиональные международные конференции по data science. А когда в 2011 году эксперты консалтинговой компании McKinsey спрогнозировали дефицит специалистов в сфере data science, университеты всего мира включили эту дисциплину в свои учебные курсы

Кто такой data scientist

Специалист, который обрабатывает большие объемы данных, называется data scientist. Его задача – найти закономерности в тоннах информации, проанализировать их, сделать выводы и дать прогнозы. Результатом работы data scientist всегда будет модель прогнозирования. То есть он должен создать самое лучшее или оптимальное решение поставленной задачи. 

Например, чтобы увеличить продажи в интернет-магазине, нужно правильно проанализировать все запросы и построить рекламную кампанию с учетом полученных выводов. Другими словами, в нужное время предложить клиенту нужный товар на нужном устройстве: программисту – новую модель компьютера, а предпринимателю – книгу о бизнесе.

Списки любых рекомендаций – будь-то друзей или музыки – тоже результат работы data scientist. Одним из первых такую модель запустил айтишник Джонатан Голдман. В 2006 году он устроился на должность аналитика по работе с базами данных в компанию LinkedIn.

Пока другие члены команды ломали голову над тем, как увеличить активность пользователей в сети, Джонатан придумал новый алгоритм. Он проанализировал данные всех зарегистрированных пользователей и спрогнозировал: вероятность того, что одни люди теоретически могут знать других, велика. Джонатан назвал алгоритм «Люди, которых вы можете знать» и убедил генерального директора использовать его в сети. 

В итоге по состоянию на 2020 год общее число пользователей LinkedIn достигло 675 млн, из них более 300 млн – активные.

Источник: gifer.com

Источник: gifer.com

В каких сферах работает data scientist

Чем активнее развиваются технологии, тем больше нужно людей, который могли бы обрабатывать большие объемы информации и создавать на основе этого решения. 

Специалисты в data science нужны везде, где составляют прогнозы или оценивают риски. А стартапы и вовсе нельзя представить без этого подхода. 

Вот почему специалисты по data science нужны сегодня практически во всех сферах. Вот лишь некоторые из них: 

  • В банке. Например, на основе обработанных данных программа делает вывод, стоит ли выдавать кредит клиенту. Здесь задача data scientist – оценить платежеспособность клиента.
  • В бизнесе. Data scientist поможет выяснить, какой товар будет более востребован. Он также сделает подборку товаров или услуг для конкретной категории людей.
  • В логистике. Специальные программы помогут выстроить оптимальный маршрут.
  • В IT. Data scientist программирует искусственный интеллект и разрабатывает поисковые системы.
  • В медицине. Например, чтобы создать устройство, которое автоматически выдает результаты анализов: что в норме, а что нет.
  • В метеослужбах. Современные прогнозы погоды готовят также с помощью data science.
  • В социологии. С помощью data science можно обрабатывать анкеты и другую информацию, которую получили письменно или по телефону.

Обязанности data scientist

Data scientist должен отыскивать среди всех вариантов тот, который лучше сможет решить задачу. Именно он понимает, если что-то пойдет не так.

Вот какие обязанности у data scientist:

  • Собрать информацию о пользователях. 
  • Сгруппировать данные по категориям. 
  • Спрогнозировать, какой продукт вызовет интерес и как долго будет пользоваться спросом. 
  • Предсказать, какое новое направление стоит открыть. 
  • Смоделировать поведение пользователей или клиентов. 
Основные обязанности data scientist. Источник: datanami.com

Основные обязанности data scientist. Источник: datanami.com

Data scientist старается узнать, что предпочитает пользователь, и делает все для того, чтобы удовлетворить его запросы. 

Например, стриминговый сервис Netflix начал работать с data science еще в начале 2000-х. Уже тогда зрителям предложили оценивать фильм, который они посмотрели. А потом на основе этих оценок формировали для них следующие подборки фильмов. Позже появились тематические подборки, а также фильмы для разной целевой аудитории: детей, девушек, молодых людей и мужчин постарше. 

Для этого в Netflix собирают такую информацию: 

  • дата и время просмотра; 
  • устройство, на котором посмотрели фильм;
  • какой запрос вводили в поиске.

Так каждый зритель получает то, что будет интересно посмотреть именно ему. Благодаря такому подходу сегодня у Netflix более 200 млн пользователей по всему миру.

Что должен знать data scientist для эффективной работы

Data scientist – это человек с аналитическим складом ума. Он должен отлично знать математику и математический анализ, линейную алгебру, теорию вероятности и статистику.

Data scientist Елена Ивина говорит: это сфера, в которой пересекаются компьютерные и математические науки. Вот почему помимо математических дисциплин здесь нужно обязательно знать: 

  • принципы машинного обучения;
  • языки программирования SAS, R или Python; 
  • базы данных MySQL и Postgre; 
  • технологии и инструменты визуализации Flare, D3.js, Tableau; 
  • хранилище данных Hadoop and MapReduce; 
  • библиотеки TensorFlow и Scikit-learn; 
  • методы отчетности. 

Особое внимание Елена советует уделять языкам программирования. Она считает: Python нужно знать в совершенстве.

Источник: gifer.com

Источник: gifer.com

Специалисту по data science нужно также уметь работать в команде – ведь ему часто приходится общаться с разными специалистами. Кроме того, он должен постоянно учиться, развиваться и общаться с единомышленниками. 

Отличия аналитика big data от исследователя данных

Оба специалиста – data scientist и data analyst – работают с большими объемами информации. Они обрабатывают данные, строят прогнозы и проверяют их с помощью специальных программ. Но, несмотря на это, результаты их работы разные. 

  • Data analyst после своих исследований предлагает теоретические варианты решения проблемы. Это могут быть графики, расчеты, схемы. 
  • Data scientist предлагает прикладной продукт. А значит, разрабатывает программное обеспечение, которое реально поможет решить поставленную задачу. 

Data analyst гораздо чаще пользуется «классической» математикой и статистическими методами. А data scientist – программами по разработке программного обеспечения. Но для обоих специалистов важно понимать сферу, в которой они работают, и то, на чем компания зарабатывает. 

Кроме того, data science – более широкое понятие. Это наука, которая включает в себя все виды работы с базами данных: сбор данных, аналитику данных и их анализ. 

Структура data science. Источник: habr.com

Структура data science. Источник: habr.com

С чего начать изучение профессии

Программист с 10-летним опытом Артем Чернодуб прежде всего советует начинающим в data science найти единомышленников и грамотного наставника. Например, устроиться джуниором в большую IT-компанию. Это может быть Grammarly, Ring, Eleks. Так можно не только учиться и зарабатыватьот англ. earning & learning., но и на практике проверять, как работают и тестируются алгоритмы в реальной жизни.

С Артемом согласна и IT-специалист Елена Ивина. Она также говорит: начинать изучать алгоритмы лучше с наставником. И лишь со временем, когда придет уверенность, переходить на самостоятельное обучение.

Эталонным курсом в data science Елена Ивина называет Deep Learning Specialization на Coursera. Его проводит доцент Стэнфордского университета и сооснователь Coursera Эндрю Нг. Курс научит разбираться в нейросетях, и пройти его можно бесплатно. 

Украинский специалист по работе с базами данных Сергей Шельпук рекомендует еще такие бесплатные курсы по data science от университета Стэнфорда: 

Вот книги по data science для начинающих: 

  • Big Data: The Essential Guide To Work, Life And Learning In The Age Of Insight, Kenneth Coquier, Victor Mayer-Schönberger: авторы изучают проблему взаимодействия человека и искусственного интеллекта;
  • «Data science для бізнесу. Як збирати, аналізувати і використовувати дані», Том Фоусет, Фостер Провост: эксперты делятся опытом, как применять полученные данные в бизнесе и развивать его; 
  • «Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен: знакомство с основными математическими принципами; 
  • «Математический анализ», Липман Берс: введение в матанализ; 
  • Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville: самая полная книга по нейронным сетям и технологии машинного обучения; 
  • «Построение систем машинного обучения на языке Python», Луис Педро Коэльо, Вилли Ричард: быстрое введение в популярные Python-библиотеки для машинного обучения и визуализации. 

Вывод

Сегодня data scientist – востребованная профессия. Только за вторую половину 2020 года в Украине было опубликовано 1,6 тыс. вакансий на позицию data scientist. 

Чтобы стать data scientist, нужно отлично знать математику, основы программирования, алгоритмические техники и даже психологию. 

Работать с большими данными сложно, но вместе с тем интересно. Чем больше информации нужно собрать и проанализировать специалисту, тем вероятнее он примет правильное решение. А значит, бизнес будет развиваться и приносить прибыль. 

В этом тексте могут быть использованы ссылки на продукты и услуги наших партнеров. Если вы решите что-то заказать, то мы получим вознаграждение. Так вы поможете редакции развиваться. Партнеры не влияют на содержание этой статьи.

По теме:

Вакансии

Разместить вакансиюЕще 26 вакансий

Вдохновляющие компании

Limestone Digital

Компания сделала все, чтобы стать лучшим работодателем для своих сотрудников, и не собирается на этом останавливаться

iLogos Game Studios

Наши игры уже скачала седьмая часть жителей планеты. Чтобы увеличить эту цифру, мы ищем новых специалистов

3 вакансии

Выбор редактора

Вакансии компаний

РАЗМЕСТИТЬ ВАКАНСИЮ
ЗА 1600 ГРН

SEO Analyst

ОН Клінік, Другой
$500–2000

Team Lead (full stack)

OLSOM, Киев
$5000-6000

Recruiter

NetSolid Invest, Киев

ЕЩЕ 23 ВАКАНСИИ

Спецпроект

Вдохновляющие компании-работодатели

Alfa
«БИОСФЕРА»

Ваша жалоба отправлена модератору

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: