Data science – зачем нужна наука о данных
В 2021 году в рекрутинговом агентстве CNA International IT провели исследование о том, каких специалистов сейчас не хватает на IT-рынке Украины. Одним из них оказался data scientist. Причем если джунов в этой сфере много, то более опытных – data scientist уровня мидл или сеньор – найти очень сложно.

Редакция MC.today выяснила, что такое data science, кто первый ввел этот термин, какие обязанности у data scientist, что он должен знать и с чего стоит начать изучение профессии.
Содержание
- Что такое data science
- История возникновения data science
- Кто такой data scientist
- В каких сферах работает data scientist
- Обязанности data scientist
- Что должен знать data scientist для эффективной работы
- Отличия аналитика big data от исследователя данных
- С чего начать изучение профессии
- Вот книги по data science для начинающих
- Вывод
Что такое data science
Data science – это наука о данных. Она изучает, как правильно анализировать, обрабатывать и предоставлять данные. Это всегда работа с большими массивами информации, или с big dataот англ. большой объем данных.. При необходимости в любых данных можно выявить закономерность и правильно структурировать информацию.
Например, определить средний показатель температуры зимой за 100 лет или проанализировать статистику запросов по IT-курсам в поисковых системах.
В повседневной жизни люди уже давно пользуются такими структурированными данными: с их помощью можно забронировать отель, заказать пиццу или выбрать статью на MC.today. Списки любых рекомендаций – будь-то друзей или музыки – тоже результат обработки большого количества данных.
Список рекомендаций. Источник: MC.today
Большие объемы информации – big data – хранятся на серверах банков, мобильных операторов и соцсетей. Как правило, это личная информация о пользователе, месте и дате его рождения, номер телефона.
Часто мошенники взламывают такие базы и личная информация пользователей попадает в общий доступ. Самый крупный взлом был в 2019 году. Тогда 533 млн учетных записей Facebook слили в сеть.
История возникновения data science
Data science объединяет разные области знаний: информатику, математику и системный анализ. Вот почему еще 50 лет назад огромными базами данных занимались математики и статистики. Но с 1974 года все начало постепенно меняться.
Датский программист Петер Наур. Источник: Wikipedia
Тогда вышла книга датского программиста Петера Наура «Краткий обзор компьютерных методов». В ней впервые упоминается понятие data science. Так Петер определил науку, которая работает с цифровыми данными: с момента их появления и до того, как их проанализируют, структурируют и начнут использовать в разных сферах.
Постепенно понятие data science стали употреблять все чаще. В начале 2000-х один за другим выходят журналы, название которых совпадает с названием дисциплины. Например, Data Science Journal американского комитета по науке и технике и The Journal of Data Science Колумбийского университета.
С 2010 года стали проводить профессиональные международные конференции по data science. А когда в 2011 году эксперты консалтинговой компании McKinsey спрогнозировали дефицит специалистов в сфере data science, университеты всего мира включили эту дисциплину в свои учебные курсы.
Кто такой data scientist
Специалист, который обрабатывает большие объемы данных, называется data scientist. Его задача – найти закономерности в тоннах информации, проанализировать их, сделать выводы и дать прогнозы. Результатом работы data scientist всегда будет модель прогнозирования. То есть он должен создать самое лучшее или оптимальное решение поставленной задачи.
Например, чтобы увеличить продажи в интернет-магазине, нужно правильно проанализировать все запросы и построить рекламную кампанию с учетом полученных выводов. Другими словами, в нужное время предложить клиенту нужный товар на нужном устройстве: программисту – новую модель компьютера, а предпринимателю – книгу о бизнесе.
Списки любых рекомендаций – будь-то друзей или музыки – тоже результат работы data scientist. Одним из первых такую модель запустил айтишник Джонатан Голдман. В 2006 году он устроился на должность аналитика по работе с базами данных в компанию LinkedIn.
Пока другие члены команды ломали голову над тем, как увеличить активность пользователей в сети, Джонатан придумал новый алгоритм. Он проанализировал данные всех зарегистрированных пользователей и спрогнозировал: вероятность того, что одни люди теоретически могут знать других, велика. Джонатан назвал алгоритм «Люди, которых вы можете знать» и убедил генерального директора использовать его в сети.
В итоге по состоянию на 2021 год общее число пользователей LinkedIn достигло 740 млн.
Источник: gifer.com
В каких сферах работает data scientist
Чем активнее развиваются технологии, тем больше нужно людей, который могли бы обрабатывать большие объемы информации и создавать на основе этого решения.
Специалисты в data science нужны везде, где составляют прогнозы или оценивают риски. А стартапы и вовсе нельзя представить без этого подхода.
Вот почему специалисты по data science нужны сегодня практически во всех сферах. Вот лишь некоторые из них:
- В банке. Например, на основе обработанных данных программа делает вывод, стоит ли выдавать кредит клиенту. Здесь задача data scientist – оценить платежеспособность клиента.
- В бизнесе. Data scientist поможет выяснить, какой товар будет более востребован. Он также сделает подборку товаров или услуг для конкретной категории людей.
- В логистике. Специальные программы помогут выстроить оптимальный маршрут.
- В IT. Data scientist программирует искусственный интеллект и разрабатывает поисковые системы.
- В медицине. Например, чтобы создать устройство, которое автоматически выдает результаты анализов: что в норме, а что нет.
- В метеослужбах. Современные прогнозы погоды готовят также с помощью data science.
- В социологии. С помощью data science можно обрабатывать анкеты и другую информацию, которую получили письменно или по телефону.
Обязанности data scientist
Data scientist должен отыскивать среди всех вариантов тот, который лучше сможет решить задачу. Именно он понимает, если что-то пойдет не так.
Вот какие обязанности у data scientist:
- Собрать информацию о пользователях.
- Сгруппировать данные по категориям.
- Спрогнозировать, какой продукт вызовет интерес и как долго будет пользоваться спросом.
- Предсказать, какое новое направление стоит открыть.
- Смоделировать поведение пользователей или клиентов.
Основные обязанности data scientist. Источник: datanami.com
Data scientist старается узнать, что предпочитает пользователь, и делает все для того, чтобы удовлетворить его запросы.
Например, стриминговый сервис Netflix начал работать с data science еще в начале 2000-х. Уже тогда зрителям предложили оценивать фильм, который они посмотрели. А потом на основе этих оценок формировали для них следующие подборки фильмов. Позже появились тематические подборки, а также фильмы для разной целевой аудитории: детей, девушек, молодых людей и мужчин постарше.
Для этого в Netflix собирают такую информацию:
- дата и время просмотра;
- устройство, на котором посмотрели фильм;
- какой запрос вводили в поиске.
Так каждый зритель получает то, что будет интересно посмотреть именно ему. Благодаря такому подходу сегодня у Netflix более 200 млн пользователей по всему миру.
Что должен знать data scientist для эффективной работы
Data scientist – это человек с аналитическим складом ума. Он должен отлично знать математику и математический анализ, линейную алгебру, теорию вероятности и статистику.
Data scientist Елена Ивина говорит: это сфера, в которой пересекаются компьютерные и математические науки. Вот почему помимо математических дисциплин здесь нужно обязательно знать:
- принципы машинного обучения;
- языки программирования SAS, R или Python;
- базы данных MySQL и Postgre;
- технологии и инструменты визуализации Flare, D3.js, Tableau;
- хранилище данных Hadoop and MapReduce;
- библиотеки TensorFlow и Scikit-learn;
- методы отчетности.
Особое внимание Елена советует уделять языкам программирования. Она считает: Python нужно знать в совершенстве.
Источник: gifer.com
Специалисту по data science нужно также уметь работать в команде – ведь ему часто приходится общаться с разными специалистами. Кроме того, он должен постоянно учиться, развиваться и общаться с единомышленниками.
Отличия аналитика big data от исследователя данных
Оба специалиста – data scientist и data analyst – работают с большими объемами информации. Они обрабатывают данные, строят прогнозы и проверяют их с помощью специальных программ. Но, несмотря на это, результаты их работы разные.
- Data analyst после своих исследований предлагает теоретические варианты решения проблемы. Это могут быть графики, расчеты, схемы.
- Data scientist предлагает прикладной продукт. А значит, разрабатывает программное обеспечение, которое реально поможет решить поставленную задачу.
Data analyst гораздо чаще пользуется «классической» математикой и статистическими методами. А data scientist – программами по разработке программного обеспечения. Но для обоих специалистов важно понимать сферу, в которой они работают, и то, на чем компания зарабатывает.
Кроме того, data science – более широкое понятие. Это наука, которая включает в себя все виды работы с базами данных: сбор данных, аналитику данных и их анализ.
Структура data science. Источник: habr.com
С чего начать изучение профессии
Программист с 10-летним опытом Артем Чернодуб прежде всего советует начинающим в data science найти единомышленников и грамотного наставника. Например, устроиться джуниором в большую IT-компанию. Это может быть Grammarly, Ring, Eleks. Так можно не только учиться и зарабатыватьот англ. earning & learning., но и на практике проверять, как работают и тестируются алгоритмы в реальной жизни.
С Артемом согласна и IT-специалист Елена Ивина. Она также говорит: начинать изучать алгоритмы лучше с наставником. И лишь со временем, когда придет уверенность, переходить на самостоятельное обучение.
Эталонным курсом в data science Елена Ивина называет Deep Learning Specialization на Coursera. Его проводит доцент Стэнфордского университета и сооснователь Coursera Эндрю Нг. Курс научит разбираться в нейросетях, и пройти его можно бесплатно.
Украинский специалист по работе с базами данных Сергей Шельпук рекомендует еще такие бесплатные курсы по data science от университета Стэнфорда:
- Artificial intelligence: по искусственному интеллекту;
- Machine Learning: по машинному обучению;
- Databases: по базам данных.
Вот книги по data science для начинающих
- Big Data: The Essential Guide To Work, Life And Learning In The Age Of Insight, Kenneth Coquier, Victor Mayer-Schönberger: авторы изучают проблему взаимодействия человека и искусственного интеллекта;
- «Data science для бізнесу. Як збирати, аналізувати і використовувати дані», Том Фоусет, Фостер Провост: эксперты делятся опытом, как применять полученные данные в бизнесе и развивать его;
- «Нейронные сети и глубокое обучение», Майкл Нильсен: знакомство с основными математическими принципами;
- «Математический анализ», Липман Берс: введение в матанализ;
- Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville: самая полная книга по нейронным сетям и технологии машинного обучения;
- «Построение систем машинного обучения на языке Python», Луис Педро Коэльо, Вилли Ричард: быстрое введение в популярные Python-библиотеки для машинного обучения и визуализации.
Вывод
Сегодня data scientist – востребованная профессия. Только за вторую половину 2020 года в Украине было опубликовано 1,6 тыс. вакансий на позицию data scientist.
Чтобы стать data scientist, нужно отлично знать математику, основы программирования, алгоритмические техники и даже психологию.
Работать с большими данными сложно, но вместе с тем интересно. Чем больше информации нужно собрать и проанализировать специалисту, тем вероятнее он примет правильное решение. А значит, бизнес будет развиваться и приносить прибыль.
В этом тексте могут быть использованы ссылки на продукты и услуги наших партнеров. Если вы решите что-то заказать, то мы получим вознаграждение. Так вы поможете редакции развиваться. Партнеры не влияют на содержание этой статьи.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: