- PVSM.RU - https://www.pvsm.ru -
16 мая в Университете ИТМО состоялся семинар [1], посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.
В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.
[2] Flickr / Jer Thorp [3] / CC [4]
Профессия Data scientist — относительно новая, причем не только для России, но и для всего мира. Само собой, не все задачи из сферы профессиональных интересов современного специалиста по работе с данными появились в последние годы — какие-то из них ранее решали программисты, специалисты по статистике, бизнес-аналитики.
Более того, вопрос о том, что именно должен знать и уметь Data scientist остается открытым: например, на сайте Американской статистической ассоциации еще недавно велись дебаты [5] о том, принесет ли появление «науки о данных» смерть статистике (и насколько тесно связаны эти дисциплины) и что общего [6] у тех, кто работает на позициях Business scientist, Data scientist, Data analyst и Statistician.
Безусловно, большое количество различных терминов и названий должностей порождает определенную путаницу. Например, Винсент Грэнвилл (Vincent Granville), предприниматель и исследователь, развивавший аналитическое направление в Visa, Microsoft, eBay и NBC, выделяет [7] целых 16 различных дисциплин и профессий, так или иначе пересекающихся с тематикой Data science — от таких направлений как искусственный интеллект и предсказательное моделирование до профессий вроде актуариев (в страховании) и квантов (в высокочастотном трейдинге). С одной стороны, такое многообразие может запутать новичка, с другой — это явный признак, что без работы будущий специалист в Data science точно не останется.
Вне зависимости от того, как будет называться та или иная должность, от специалиста по работе с данными ожидается, что он будет обладать знаниями сразу в нескольких дисциплинах. Среди наиболее важных Андрей Созыкин, выступая на лекции в Университете ИТМО, отметил:
Для того, чтобы «влиться» в эту сферу, Андрей Созыкин рекомендует, в частности, следующие курсы:
Мы также рекомендуем наш недавний дайджест [12], полностью посвященный теме Data science
Освоить теорию, по словам Андрея Созыкина, можно примерно за год — в особенности, если вы уже обучаетесь на специальности с уклоном в статистику или IT. Медицинский или естественнонаучный бекграунд, опыт работы в банковском секторе или страховании, тоже могут быть как нельзя кстати.
Андрей подчеркивает, что будущему специалисту важно обладать не только фундаментальными, инженерными знаниями, но и разбираться в предметной области, в которой будет идти работа. В конце концов, одна из проблем, с которой сейчас сталкиваются крупные компании, работающие с Большими данными, — невозможность эффективного применить на практике полученные результаты исследований.
Разумеется, человек с таким набором знаний – большая редкость. Поэтому и Data science, как правило, — дисциплина не одиночная, а «командная»:
Это принципиально мультидисциплинарное направление. […] допустим, кто-то отлично программирует, кто-то на очень высоком уровне знает математику, а кто-то разбирается в тех же банках, а все вместе они выдают результат
— Андрей Созыкин
Необычный пример такого мультидисциплинарного подхода – работа специалиста по Большим данным и Data science Клаудио Сильвы, профессора Политехнического института и Центра городских исследований и прогресса Нью-Йоркского университета. В 2015 году он впервые посетил Университет ИТМО и дал интервью [13] о том, как Data science может быть связана с урбанистикой.
Клаудио воспринимает информацию, которая генерируется в городах, как «безотходное производство»: Большие данные, создающиеся в процессе работы многочисленных городских служб и предприятий, могут послужить городу во благо. Например, специалисты по работе с данными в Нью-Йорке разработали продукт, позволяющий инженерам городских путей эффективно использовать информацию о передвижении нью-йоркских такси.
Нам важно, чтобы все решения, принимаемые городскими управленцами, инженерами, архитекторами, следовали логике данных, чтобы они не были спонтанными или плохо взвешенными. У нас есть возможность более широко смотреть на то, как должен развиваться город, и нужно пользоваться ею
— Клаудио Сильва
По словам Андрея Созыкина, основные направления для развития сферы Data science — разработка аппаратного обеспечения для ускорения обучения, создание более сложных и точных алгоритмов обучения и построения сетей. Не менее важная задача — научиться лучше понимать, как «думает» сеть — от этого зависит то, насколько широко будут применяться разработки специалистов по Data science в сферах, непосредственно связанных с жизнью человека:
Для нас она [сеть] работает в так называемом режиме black box — «черного ящика». Мы не понимаем, что у нее происходит внутри и почему она предлагает именно такие варианты. В медицине это неприемлемо, ведь в этой области мы должны четко объяснить и аргументировать каждое действие
—Андрей Созыкин
Отметим, что в Университете ИТМО работой в направлении Data science занимается, в частности, Институт наукоемких компьютерных технологий (НИИ НКТ). О том, как сотрудники Института создают модели развития событий в местах массового скопления людей, анализируют настроение толпы и оценивают общественное мнение по данным социальных сетей, мы рассказывали в этом материале [14].
Автор: Университет ИТМО
Источник [16]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/255873
Ссылки в тексте:
[1] семинар: http://news.ifmo.ru/ru/science/it/news/6666/
[2] Image: https://habrahabr.ru/company/spbifmo/blog/329220/
[3] Jer Thorp: https://www.flickr.com/photos/blprnt/
[4] CC: https://creativecommons.org/licenses/by/2.0/
[5] дебаты: http://magazine.amstat.org/blog/2016/01/01/data-science-the-evolution-or-the-extinction-of-statistics/
[6] что общего: http://magazine.amstat.org/blog/2015/11/01/statnews2015/
[7] выделяет: http://www.datasciencecentral.com/profiles/blogs/17-analytic-disciplines-compared
[8] Machine Learning: https://www.coursera.org/learn/machine-learning
[9] Neural Networks for Machine Learning: https://www.coursera.org/learn/neural-networks
[10] Data Analyst: https://www.udacity.com/course/data-analyst-nanodegree--nd002
[11] Machine Learning Engineer: https://www.udacity.com/course/machine-learning-engineer-nanodegree--nd009
[12] дайджест: https://habrahabr.ru/company/spbifmo/blog/326894/
[13] интервью: http://news.ifmo.ru/ru/archive/archive2/news/5019/
[14] этом материале: https://habrahabr.ru/company/spbifmo/blog/308694/
[15] прямую трансляцию: http://icpclive.com/
[16] Источник: https://habrahabr.ru/post/329220/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.