Профессия Data Scientist: как не ошибиться с выбором

в 7:20, , рубрики: Алгоритмы, Блог компании Airbnb, разработка

Профессия Data Scientist: как не ошибиться с выбором

Человек любит играть с цифрами или цифры с человеком? В классическом среднем образовании есть забавный парадокс: школьников натаскивают зазубривать правила и случаи их применения, но чем больше ученик знает правил и исключений, тем чаще имеет возможность совершить ошибку. В диктанте, сотканном из текстов классической русской литературы, изобилие запятых уточняющего характера, приводит к мысли, что именно не поставленная запятая является ошибкой. Следовательно, грамотная работа – это сочинение с большим количеством запятых. Проблема причинно-следственной связи, не так ли? Может быть, если вы хороший писатель, вы используете много запятых уточняющего характера, но это не тот случай, когда количество запятых делает вас хорошим писателем…

Интерпретация запятых в классической русской литературе – это пример плохого анализа данных, построенного на отсутствии любознательности и понимания математической статистики. Эти факторы + страстное желание развиваться в области информационных технологий – ключевые в понимании специальности «учёного по данным».

Профессия Data Scientist: как не ошибиться с выбором

Пост подготовлен по материалам выступления сотрудника Airbnb, специалиста по data science.

Не будем подробно останавливаться на том, почему профессия data scientist отмечается как одна из самых привлекательных и перспективных в мире. Достаточно упомянуть, что число вакансий в этом направлении растёт по экспоненте, а по расчётам McKinsey Global Institute к 2018 году в одной только Америке понадобится дополнительно 190 тысяч специалистов по данным, имеющих подготовку в области статистики и машинного обучения. McKinsey отмечают, что дополнительно понадобится обучать миллионы менеджеров базовым навыкам работы с данными.

Это огромный рынок, который только появляется, однако проблемы big data и способы их решения возникли не вчера. Объём архивных данных, накопленных за годы работы только в Airbnb, составляет несколько петабайт данных. Ежедневно обрабатываются десятки терабайт информации при помощи хранилища, построенного на основе Apache Hadoop и Hive. Мы уже рассказывали о персонализированной поисковой системе Airbnb – создана она на системе распределённой обработки в режиме реального времени Storm. Для Airbnb анализ пользовательских данных необходим для принятия практически любого решения по развитию компании. И нам жизненно необходимы профессионалы data scientist.

На сегодняшний день только треть спроса на data science специалистов может быть удовлетворена. Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области data mining или прогнозной аналитики, что ведёт к росту спроса и зарплат. Государственные и частные вузы не справляются с процессом подготовки специалистов по работе с данными.

Data Scientist: личностные особенности

Профессия Data Scientist: как не ошибиться с выбором

Ряд технических ВУЗов предлагают программу подготовки «магистров наук по науке о данных и менеджменту». Специальность потребует от вас глубоких знаний в области математической статистики, машинного обучения, программирования. Однако никакое обучение не сравнится с опытом, который вы получите непосредственно от работы, сталкиваясь с реальными проблемами. Только работа продемонстрирует вам, что выбранный путь – не самый простой в жизни.

Заниматься data science так же трудно, как заниматься наукой вообще. Как и в обычных научных дисциплинах, большинство применяемых вами методов не сработают. Вы не можете просто зайти в лабораторию, щёлкнуть пальцами и получить результат. Вы придумаете множество интересных (просто отличных!) вещей: как сделать систему лучше, как настроить и оптимизировать выборку, и тому подобное. Около двух третей ваших идей не сработают. Подавляюще большую часть времени вы будете терпеть неудачу. И должны быть к этому готовы.
Чтобы быть хорошим data scientist не достаточно быть хорошим программистом. Вы должны лучше разбираться в статистике, чем в программной инженерии. Компетентный data scientist – это компетентный статистик. Окружающие вас спецы во всём остальном разбираются лучше – и это нормально, вы должны уметь слушать их, получать от них данные, необходимые в вашей работе.

Data scientist – это человек, который любит математику. Работодатели, ищущие специалиста в области данных, должны в первую очередь обращать внимание на математические специальности. Вы не изучали математику и боитесь поставить крест на карьере? Есть альтернативный путь – изучение информатики. А можно и преуспеть в академической науке. Важен склад ума, понимаете? Вы можете быть специалистом в нейронауке и решить заняться изучением данных – математика примет вас с распростёртыми объятиями.

Погружение в математику не должно мешать вам изучать компьютерные системы. Иначе проще стать преподавателем. Это большая проблема на самом деле, что математики не понимают масштаб используемых данных, они не понимают саму структуру компьютерных данных и, как следствие, не способны смоделировать появление системных проблем в перспективе. Всегда существует брешь между вероятностной математической моделью, которая, как вы предполагаете, соответствует структуре вашей проблемы, и фактическими данным, которые вы пытаетесь анализировать. Собирать статистику – означает метаться между моделью и данными. Очень важно понимать это на глубинном уровне, а не относиться к математике (и компьютерным системам) как к волшебной коробке, куда можно закинуть цифры, повернуть рукоятку и получить результат.

Data Scientist: как им стать

Профессия Data Scientist: как не ошибиться с выбором

Человек действует сообразно шаблонам, заложенным в голове. При рассмотрении проблемы вы оперируете готовыми моделями поведения. Data scientist работает со случайными величинами и вероятностными моделями, потому что его задача – выявлять самые неожиданные закономерности. Если вы хотите нанять такого специалиста, и признаётесь себе, что не так много знаете о статистике, предложите человеку, которого вы интервьюируете, тест полностью лишенный контекста. Вырванный из контекста. И вы увидите, как он будет обращаться с проблемой не зная, как решить проблему. В этом суть работы – думать не о заранее полученных статистических данных, не о компьютерных моделях решения, а о проблеме. Такое решение демонстрирует способность специалиста оперировать вероятностными моделями со сложными данными.

Итак, вы готовы делать все эти штуки, вы разбираетесь в статистике, понимаете структуру данных и алгоритмы, или вы ученый, понимающий, что лежит в основе моделирования. Теперь вы можете получить работу. Но есть ещё масса всего на свете, чего вы не знаете, что трудно понять, потому что оно не занесено в учебники. Например, большинство аналитиков данных не понимают, как работают команды в рамках разработки программного обеспечения. Это очень пугает и нервирует, когда вы соприкасаетесь со средой с непонятным материалом. Нет ничего унизительно в том, чтобы признать это и начать всё заново – стать учеником более опытных разработчиков.

Наблюдать за развитием программного проекта с нуля – это бесценный опыт. Другой способ получить опыт взаимодействия с реальной средой – участвовать в проекте Kaggle. Ресурс используют для решения сложных задач в разных областях знаний (маркетинг, финансы, банковское дело, медицина, страхование, научные исследования). Kaggle превращает бизнес-задачи компаний в структурированный набор данных, с которыми удобно работать.

Data Scientist: не быть тем, кем ты не являешься

Профессия Data Scientist: как не ошибиться с выбором

Не пытайтесь быть тем, кем вы не являетесь. Не редко data scientist воспринимают как аналитика данных. Аналитик может сказать: «Если мои инструменты анализа данных не могут ответить на поставленный вопрос, то вопрос остаётся без ответа». Здесь мы задаём вопрос базе данных и, если он не вернется через полчаса, мы отменяем его и переходим к следующему.

Data scientist размышляет следующим образом: «Если мои инструменты анализа данных не могут ответить на поставленный вопрос, значит мне нужны более лучшие инструменты и данные». Этот пример объясняет лучше всего вышесказанного, как быть data scientist. Учёный не говорит: я не могу ответить на вопрос, пойду займусь чем-нибудь другим. Ученый продолжает думать о вопросе и выяснить способы, с помощью которых сможет на него ответить.

Автор: AirbnbHabr

Источник

* - обязательные к заполнению поля