В 2021 году в рекрутинговом агентстве CNA International IT провели исследование о том, каких специалистов сейчас не хватает на IT-рынке Украины. Одним из них оказался data scientist. Причем если джунов в этой сфере много, то более опытных – data scientist уровня мидл или сеньор – найти очень сложно.
Редакция MC.today выяснила, что такое data science, кто первый ввел этот термин, какие обязанности у data scientist, что он должен знать и с чего стоит начать изучение профессии.
Содержание
Data science – это наука о данных. Она изучает, как правильно анализировать, обрабатывать и предоставлять данные. Это всегда работа с большими массивами информации, или с big data
Например, определить средний показатель температуры зимой за 100 лет или проанализировать статистику запросов по IT-курсам в поисковых системах.
В повседневной жизни люди уже давно пользуются такими структурированными данными: с их помощью можно забронировать отель, заказать пиццу или выбрать статью на MC.today. Списки любых рекомендаций – будь-то друзей или музыки – тоже результат обработки большого количества данных.
Список рекомендаций. Источник: MC.today
Большие объемы информации – big data – хранятся на серверах банков, мобильных операторов и соцсетей. Как правило, это личная информация о пользователе, месте и дате его рождения, номер телефона.
Часто мошенники взламывают такие базы и личная информация пользователей попадает в общий доступ. Самый крупный взлом был в 2019 году. Тогда 533 млн учетных записей Facebook слили в сеть.
Data science объединяет разные области знаний: информатику, математику и системный анализ. Вот почему еще 50 лет назад огромными базами данных занимались математики и статистики. Но с 1974 года все начало постепенно меняться.
Датский программист Петер Наур. Источник: Wikipedia
Тогда вышла книга датского программиста Петера Наура «Краткий обзор компьютерных методов». В ней впервые упоминается понятие data science. Так Петер определил науку, которая работает с цифровыми данными: с момента их появления и до того, как их проанализируют, структурируют и начнут использовать в разных сферах.
Постепенно понятие data science стали употреблять все чаще. В начале 2000-х один за другим выходят журналы, название которых совпадает с названием дисциплины. Например, Data Science Journal американского комитета по науке и технике и The Journal of Data Science Колумбийского университета.
С 2010 года стали проводить профессиональные международные конференции по data science. А когда в 2011 году эксперты консалтинговой компании McKinsey спрогнозировали дефицит специалистов в сфере data science, университеты всего мира включили эту дисциплину в свои учебные курсы.
Специалист, который обрабатывает большие объемы данных, называется data scientist. Его задача – найти закономерности в тоннах информации, проанализировать их, сделать выводы и дать прогнозы. Результатом работы data scientist всегда будет модель прогнозирования. То есть он должен создать самое лучшее или оптимальное решение поставленной задачи.
Например, чтобы увеличить продажи в интернет-магазине, нужно правильно проанализировать все запросы и построить рекламную кампанию с учетом полученных выводов. Другими словами, в нужное время предложить клиенту нужный товар на нужном устройстве: программисту – новую модель компьютера, а предпринимателю – книгу о бизнесе.
Списки любых рекомендаций – будь-то друзей или музыки – тоже результат работы data scientist. Одним из первых такую модель запустил айтишник Джонатан Голдман. В 2006 году он устроился на должность аналитика по работе с базами данных в компанию LinkedIn.
Пока другие члены команды ломали голову над тем, как увеличить активность пользователей в сети, Джонатан придумал новый алгоритм. Он проанализировал данные всех зарегистрированных пользователей и спрогнозировал: вероятность того, что одни люди теоретически могут знать других, велика. Джонатан назвал алгоритм «Люди, которых вы можете знать» и убедил генерального директора использовать его в сети.
В итоге по состоянию на 2021 год общее число пользователей LinkedIn достигло 740 млн.
Источник: gifer.com
Чем активнее развиваются технологии, тем больше нужно людей, который могли бы обрабатывать большие объемы информации и создавать на основе этого решения.
Специалисты в data science нужны везде, где составляют прогнозы или оценивают риски. А стартапы и вовсе нельзя представить без этого подхода.
Вот почему специалисты по data science нужны сегодня практически во всех сферах. Вот лишь некоторые из них:
Data scientist должен отыскивать среди всех вариантов тот, который лучше сможет решить задачу. Именно он понимает, если что-то пойдет не так.
Вот какие обязанности у data scientist:
Основные обязанности data scientist. Источник: datanami.com
Data scientist старается узнать, что предпочитает пользователь, и делает все для того, чтобы удовлетворить его запросы.
Например, стриминговый сервис Netflix начал работать с data science еще в начале 2000-х. Уже тогда зрителям предложили оценивать фильм, который они посмотрели. А потом на основе этих оценок формировали для них следующие подборки фильмов. Позже появились тематические подборки, а также фильмы для разной целевой аудитории: детей, девушек, молодых людей и мужчин постарше.
Для этого в Netflix собирают такую информацию:
Так каждый зритель получает то, что будет интересно посмотреть именно ему. Благодаря такому подходу сегодня у Netflix более 200 млн пользователей по всему миру.
Data scientist – это человек с аналитическим складом ума. Он должен отлично знать математику и математический анализ, линейную алгебру, теорию вероятности и статистику.
Data scientist Елена Ивина говорит: это сфера, в которой пересекаются компьютерные и математические науки. Вот почему помимо математических дисциплин здесь нужно обязательно знать:
Особое внимание Елена советует уделять языкам программирования. Она считает: Python нужно знать в совершенстве.
Источник: gifer.com
Специалисту по data science нужно также уметь работать в команде – ведь ему часто приходится общаться с разными специалистами. Кроме того, он должен постоянно учиться, развиваться и общаться с единомышленниками.
Оба специалиста – data scientist и data analyst – работают с большими объемами информации. Они обрабатывают данные, строят прогнозы и проверяют их с помощью специальных программ. Но, несмотря на это, результаты их работы разные.
Data analyst гораздо чаще пользуется «классической» математикой и статистическими методами. А data scientist – программами по разработке программного обеспечения. Но для обоих специалистов важно понимать сферу, в которой они работают, и то, на чем компания зарабатывает.
Кроме того, data science – более широкое понятие. Это наука, которая включает в себя все виды работы с базами данных: сбор данных, аналитику данных и их анализ.
Структура data science. Источник: habr.com
Программист с 10-летним опытом Артем Чернодуб прежде всего советует начинающим в data science найти единомышленников и грамотного наставника. Например, устроиться джуниором в большую IT-компанию. Это может быть Grammarly, Ring, Eleks. Так можно не только учиться и зарабатывать
С Артемом согласна и IT-специалист Елена Ивина. Она также говорит: начинать изучать алгоритмы лучше с наставником. И лишь со временем, когда придет уверенность, переходить на самостоятельное обучение.
Эталонным курсом в data science Елена Ивина называет Deep Learning Specialization на Coursera. Его проводит доцент Стэнфордского университета и сооснователь Coursera Эндрю Нг. Курс научит разбираться в нейросетях, и пройти его можно бесплатно.
Украинский специалист по работе с базами данных Сергей Шельпук рекомендует еще такие бесплатные курсы по data science от университета Стэнфорда:
Сегодня data scientist – востребованная профессия. Только за вторую половину 2020 года в Украине было опубликовано 1,6 тыс. вакансий на позицию data scientist.
Чтобы стать data scientist, нужно отлично знать математику, основы программирования, алгоритмические техники и даже психологию.
Работать с большими данными сложно, но вместе с тем интересно. Чем больше информации нужно собрать и проанализировать специалисту, тем вероятнее он примет правильное решение. А значит, бизнес будет развиваться и приносить прибыль.
Кровать — громоздкий элемент интерьера даже в просторной спальне. Но что, если помещение совсем небольшое,…
Украинские PR-агентства реализуют масштабные информационные кампании для бизнеса и придают мощный голос социальным проектам, которые…
Power BI (Business Intelligence) Microsoft – это не просто платформа для анализа данных, а ключевой…
Лас-Вегас — один из самых узнаваемых городов на планете, который ежегодно манит к себе миллионы…
Из-за широкомасштабного вторжения россии в Украине было введено военное положение и объявлена мобилизация. Военнообязанным мужчинам…
«Вижу цель – не вижу препятствий». Знакомая фраза? Часто ею руководствуются кандидаты, ищущие работу мечты.…