Разница между статистикой и наукой о данных

в 7:37, , рубрики: big data, data mining, data science, R, Алгоритмы, Блог компании Издательский дом «Питер», статистика, статистический анализ

Здравствуйте, уважаемые читатели.

Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.

Объем оригинала — 250 стр., дата выхода — 25 февраля.

Разница между статистикой и наукой о данных - 1

В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.

Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science

Сложно сказать, что сейчас пользуется большим спросом – специальность «data scientist» или статьи о data science. Так всегда бывает, когда какой-то термин начинает звучать из каждого утюга. Все наперебой делают контент, и именно об этом – самые популярные поисковые запросы наших дней: “responsive”, “the Cloud”, “Omni-channel”.

Разумеется, огромен и спрос на специалистов по исследованию данных. В прошлом году портал Glassdoor обозначил эту профессию как топ-специальность 2016 – приведя в качестве примера 1 700 открытых вакансий со средней годовой зарплатой $116k.

Но после того, как я проштудировал пост по Data Science, а потом ответ с Quora на вопрос из бизнес-школы (кстати, там были и глубокие мысли) – пытаясь понять эту модную тенденцию, вопросов у меня только прибавилось. Все немного по-разному определяли, чем Data Science является, и чем – нет. Через пару часов я уже не был уверен, что феномен Data Science вообще существует.

Поэтому опасался, что моя собственная статья по Data Science просто пополнит эту кучу. А зачем читать вброс очередного маркетолога, на все лады расхваливающего тему, в которой сам не слишком разбирается. Что такое наука о данных? Чем она отличается от статистики? Почему пользуется таким спросом?

Как вскоре выяснилось, ответ связан не только с умением программировать, но и с глубочайшим пониманием создаваемого продукта.

Скептический статистик

Похоже, Нейт Сильвер (Nate Silver) не видит разницы между наукой о данных и статистикой. Он – знаменитый вычислитель, ключевой специалист с медийного сайта FiveThirtyEight – и тот самый человек, который верно спрогнозировал итоги голосования на президентских выборах 2008 года в 49 из 50 штатов США. В 2012 году у него получилось уже 50 из 50. И он воспринимает термин «data science» более скептически.

“Думаю, data-scientist – распиаренный синоним для «специалист по статистике»” – заявил Сильвер в 2013 году на лекции в Joint Statistical Meeting.

“Статистика – это научная дисциплина. Термин «наука о данных» немного избыточен, поэтому лучше пользоваться термином «статистик».”

Статистикам весь тренд, связанный с наукой о данных, кажется слегка высокомерным. Не важно, какова именно точная дефиниция «науки о данных» — так или иначе, эта сфера деятельности весьма пересекается с той работой, которой статистики занимаются уже не одно десятилетие.

И, хотя найдется миллион контраргументов, такое мнение сложно опровергнуть, не придя сперва к общему мнению: что же такое «data science». Слишком многие определения data science состоят из прежних громких словечек. Например, «майнинг данных для бизнес-аналитики». Неоднозначные словечки, одно за другим. Черепахи до самого низа.

Даже если наука о данных – нечто особенное, я так и не мог понять, зачем всем этим компаниями легионы таких специалистов. Почему работа такая крутая? Может быть, компании просто подражают Google, Facebook и Netflix, вожделея их прибылей и рыночной стоимости?

Расстроившись, я черканул короткое сообщение одному другу, CTO. Он молниеносно отреагировал: «даже слышать о них не хочу».

Несколько месяцев напролет он собеседовал кандидатов на позицию data scientist, открытую в их компании. Оказалось, что самозваные data scientist’ы более чем туманно представляли, чем им предстоит заниматься. У каждого кандидата был немного иной набор навыков, и еще более своеобразное понимание круга своих задач.

“99% кандидатов — не data scientist’ы,” сказал он. “Они не умеют делать то, что нам требуется.”
По-видимому, даже те, кто выступает в защиту этой профессии, не вполне понимают, где кончается статистика и начинается наука о данных.

Человек, знающий ответы

В поисках ответов я написал Дрю Харри (Drew Harry), директору по data science в Twitch. Позапрошлой осенью мы с ним обсуждали статью о том, как укрупнился Twitch. Если кто-то и мог указать мне путь, то именно Дрю.

“Да, я знаю одного коллегу с интересными мыслями на этот счет,” написал он.
А через несколько дней я уже пришел на встречу с Брэдом Шлумичем (Brad Schumitsch), мы решили посидеть в кафе поблизости от головного офиса Twitch в Сан-Франциско.

“Ну, расскажи мне, что думаешь насчет науки данных и статистики,” спрашивает Брэд. А потом спокойно сидит, прихлебывает горячий шоколад и внимательно меня слушает – а я, уже после двух чашек кофе, скачу от языка R к управлению конвейерами данных и далее к алгоритмам.

Брэд – стипендиат Фулбрайта. С десяток лет назад он написал важную статью, где подробно изложил, как математический метод под названием «выпуклая оптимизация» повысил качество видеокодировки H.264. У него степень PhD по машинному обучению, полученная в Стэнфорде, он провел год в Google X, экспериментальном научно-исследовательском центре, где Google разрабатывала такие амбициозные проекты, как беспилотный автомобиль или очки Google Glass.

У Брэда есть нужные мне ответы, но он, как хороший data scientist, начинает задавать вопросы, чтобы обозначить исходную позицию.

После того, как я завершаю мои выкладки, Брэд вежливо отвечает: “Все это очень дельные замечания, но вообще тема непростая. Вообще – отличная тема, как раз потому, что тут есть что обсудить.”

Помолчав, он начинает: “Во-первых, я очень уважаю статистиков.”

Он подчеркнуто нетороплив и не стесняется делать паузы, чтобы собраться с мыслями.
“Статистика – важнейшая составляющая науки о данных. У нас в Twitch команда data science обладает тремя компетенциями: статистика, программирование и понимание продукта. Мы никогда не взяли бы на работу человека, слабо ориентирующегося в статистике. Ты можешь быть классным программистом, но если не знаешь, что такое байесовский вывод – то у нас есть и инженерный отдел, могу проводить.”

“Некоторые считают, что наука о данных – это всего лишь прикладная статистика, но мы – определенно не просто статистики. Я нуждаюсь не только в людях, которые занимались бы теоретическими исследованиями по статистике. Никто у меня не должен писать такие статьи, как Фишер», продолжает он, имея в виду Рональда Фишера, родоначальника современной статистики и экспериментального дизайна. – «Гораздо важнее уметь применять сделанные выводы».
Естественно, в такой компании как Twitch подобное «применение» требует глубоких знаний информатики.

Не только статистика

В статистическом сообществе все чаще говорят, что границы статистики требуется расширить – например, внимательнее относиться к сбору, представлению данных и управлению ими, плотнее заниматься прогнозированием результата, а не просто логически выстраивать взаимосвязи. Существует множество направлений, в которых могла бы расти статистика. Вместо того, чтобы просто делать учебник, а затем возвращаться к теоретическим изысканиям, статистики должны налаживать коммуникацию.

Например, пару десятилетий назад кванты (статистики, занятые количественным анализом) корпели над цифрами в кабинетах и передавали полученные данные заинтересованным лицам – например, трейдерам – чтобы те могли принимать нужные меры. Сегодня data scientist’ы пишут алгоритмы, которые способны в полностью автоматическом режиме поглощать данные, все просчитывать и заключать сделки – все это в доли секунды.

Очевидно, что корни всего этого – в статистике. Я понимаю, почему многие, в том числе, многоуважаемый Нейт Сильвер, могут смешивать ее с наукой о данных. Но сфера профессиональной деятельности исследователей данных далеко не ограничивается статистикой.
Информатика обогащает многие дисциплины, придавая им новые аспекты. Маркетинг + программирование = взлом роста (growth hacking). Вероятно, статистика + программирование = наука о данных. Как бы я хотел вернуться на те занятия Udemy, которые прогуливал.

Эра динамических продуктов

Двадцать лет назад те сайты, на которые я заходил с II si в компьютерном классе, в основном представляли собой статические документы. Но с такими страницами далеко не уедешь, поэтому вскоре появились более сложные сайты, реагировавшие на пользовательский ввод. Например, Google – на нем принимали от пользователя поисковый запрос, а затем выдавали список соответствующих веб-страниц.

Но, естественно, в Google не хранилось по статическому документу на любой мыслимый вариант пользовательского ввода. Нет, поисковые роботы Google рыскали по страницам и по максимуму извлекали с них данные. Поэтому как только вы вводили запрос «запчасти от велосипедов», Google программно просматривал все имевшиеся у него данные и генерировал страницу со ссылками на страницы, которые, по всей видимости, соответствовали этому запросу.
Разумеется, сегодня мы рассчитываем, что сайты и приложения с данными должны быть динамическими и учитывать не только ваш пользовательский ввод, но и на ту массу информации о вас, которую удалось узнать. У меня на домашней странице в Netflix будут фильмы, рекомендованные именно мне, исходя из моих предпочтений. В Spotify именно для меня составляется еженедельный плейлист “Discover”.

Когда вы открываете Facebook, начинается формирование новостной ленты, и в ее оптимизации участвует неисчислимое множество факторов. Уилл Оремус (Will Oremus), старщий технологический писатель портала Slate описывает этот процесс в своем замечательном исследовании алгоритма, лежащего в основе новостной ленты Facebook:

Всякий раз, когда вы открываете Facebook, включается один из самых влиятельных, неоднозначных и непонятных алгоритмов в мире. Он сканирует и собирает всю информацию, которую запостили за прошлую неделю все ваши друзья, все, кого вы отслеживаете, все публикации из групп, в которых вы состоите и с каждой страницы Facebook, которую вы лайкнули. Для среднего пользователя Facebook набирается более 1500 постов. Если у вас несколько сотен друзей, то постов может быть и 10 000. Затем, в соответствии с тщательно охраняемой и постоянно изменяющейся формулой алгоритм новостной ленты Facebook ранжирует эти посты – именно в том порядке, в котором, судя по всему, вы бы стали их читать. Большинство пользователей обычно просматривают лишь первые несколько сотен.

Кто-то должен был написать алгоритм, реализующий все эти возможности. Facebook мог бы собрать всю эту «историю» и передать ее очень талантливому специалисту по статистике. Статистик вооружился бы своими безграничными знаниями и опытом, после чего написал бы на языке R отличную модель, в которой логически выведет взаимосвязи между всеми этими переменными. Что, конечно же, позволит результативно подобрать рекламу, которая наиболее подойдет в тех или иных ситуациях.

Но как вплести все это в продукт? Много ли пользы в одной ретроспективе? Facebook требуется алгоритм, позволяющий проанализировать все это, пока грузится страница, спрогнозировать и предоставить оптимальную ленту новостей. Вот этим и занимается data scientist.

Вот почему такие специалисты нужны в технических компаниях. И почему они, пусть и работают со статистикой – далеко не «те же самые спецы, вид сбоку».

Но успех в науке о данных вдобавок требует и глубокого понимания продукта, с которым работаешь.

Вопрос в вопросе

“В Twitch полно замечательных специалистов, и не все они знают статистику. Поэтому, чтобы добиться результата, нужно наладить контакт между исследователем данных и продукт-менеджером,” считает Брэд.

Пока мы обсуждаем роль data science в разработке продукта, Брэд то и дело упоминает об «эффективности».

“Гораздо эффективнее работать, если все одинаково понимают смысл продукта, решают, какие параметры важнее, понимают с точки зрения программиста, как реализовать трекинг, и с точки зрения статистика – как делать анализ.”

Не понимая, как люди будут пользоваться продуктом, и каковы цели компании, можно исказить весь анализ данных. Задача data scientist'а – держать в голове сразу всю эту информацию, а когда кто-нибудь придет в отдел с нечетко определенной проблемой – знать, к каким данным обратиться, чтобы ответить на вопрос.

Разносторонние умельцы

Оглядываясь назад, я понимаю, почему так сложно дать дефиницию этой сферы, поскольку специалисты в ней работают на стыке статистики и программирования, а также статистики и производства. Тем более понятно, как сложно подобрать такое определение, если сам формируешь команду по data science.

В Google и Netflix такая работа ведется годами, но нынешние стартапы по восемь человек тоже хотят включиться в игру. Практически в любом приложении существует своя модель доставки контента, оптимизированного под каждого конкретного пользователя. Чем лучше алгоритм, скажем, в таком приложении для свиданий как Hinge, тем лучше вам подойдет рекомендуемый партнер, и тем вероятнее клиент найдет себе пару. По-моему, очевидно, почему в компаниях нужны люди с такой специализацией, но еще очевиднее, почему так сложно подобрать специалиста на эту роль. И спрос на исследователей данных лишь растет.

Нынешний data scientist причудливо сочетает в себе черты экономиста, физика и математика. Это редкий человек, который, благодаря сложившимся обстоятельствам и правильному образованию также является классным инженером и вычислителем. Но таких людей найти сложно. Опыт показывает, что не всякий, кто претендует на позицию data scientist, в принципе способен объяснить, что это такое.

Пожалуй, если все мы придем к общему мнению, чем должны заниматься data scientist’ы, таких постов станет меньше. Но все равно остается ощущение, что ажиотажный спрос на настоящих специалистов в этой сфере пока будет сохраняться.

Автор: Издательский дом «Питер»

Источник

Поделиться

* - обязательные к заполнению поля