- PVSM.RU - https://www.pvsm.ru -

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»

Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал [1]». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал» - 1 [2]
Christoph Scholz [3] / Flickr / CC BY-SA [4]

Пара слов об олимпиаде «Я — профессионал»

Олимпиада проводится для студентов самых разных специальностей.

В этом году зарегистрированы 54 направления [5]: есть математика, искусственный интеллект, программная инженерия, интернет вещей, фотоника и многие другие.

Зачем участвовать. Победители получают возможность [6] поступить в российские вузы без экзаменов и пройти стажировку в крупных компаниях-партнерах олимпиады: Яндексе, Сбербанке, MRG и так далее. Студенты, которые покажут хорошие результаты, получат возможность посетить зимние школы [7]. Там можно будет познакомиться с экспертами индустрии.

Формат участияРегистрация [1] — до 22 ноября. С 24 ноября по 9 декабря в режиме онлайн состоится отборочный тур. Его могут пропустить те, кто прошел [8] не менее двух онлайн-курсов из утвержденного организаторами списка [9]. В феврале 2019 года начнутся заключительные этапы.

Они пройдут очно в разных университетах страны. Университет ИТМО курирует сразу пять направлений олимпиады. О некоторых из них, в частности, о «Робототехнике [10]», мы рассказывали ранее. Сегодня представим направление «Большие данные». Это — новинка олимпиады этого года.

Направление «Большие данные»: что нужно знать

В мире проводится множество мероприятий и семинаров, посвященных Big Data.

Стоит упомянуть международные конференции SIGMOD [11], SIGKDD [12] или ICML [13]. Все больше подобных событий проходит и в нашей стране. Например, DataFest [14], Big Data Conference [15] от Rusbase и многочисленные митапы по технологиям управления и анализа Big Data.

Университет ИТМО также участвует в различных мероприятиях и проводит собственные. Такие как серия конференций YSC (Young Science Conference [16]), лекция Германа Грефа [17] и недавний закрытый воркшоп, прошедший в MRG. Большие данные занимают важное место в разработке новых IT-систем и решений в других сферах деятельности. В Университете ИТМО идет активная работа с применением и развитием технологий Big Data во всех плоскостях.

Например, сотрудники кафедры высокопроизводительных вычислений Университета ИТМО создали [18] семантическое распределенное хранилище данных Exarch. Оно обеспечивает быстрый доступ к данным, оптимизирует процессы их обработки. Exarch позволяет в два раза сократить время выполнения простых задач, по сравнению с инструментами вроде HDFS и Cassandra.

Учитывая опыт и научные интересы вуза в области работы с большими данными, мы не могли упустить возможность открыть такое направление в рамках проекта «Я — профессионал». Курирует этот трек олимпиады Александр Валерьевич Бухановский [19], доктор технических наук, директор мегафакультета трансляционных информационных технологий Университета ИТМО. Сейчас он с командой, в которую входят и аспиранты вуза, занимается подготовкой заданий.

В направление «Большие данные» входит Анализ данных, статистика и машинное обучение плюс Технологии распределенных вычислений и систем. Первое поднаправление связано с математикой и подходами к обработке больших объемов данных. Второе — строится вокруг программирования и высокопроизводительных вычислений, направленных на оптимизацию аналитических процессов.

Участники будут использовать платформу Яндекс.Контест и самые популярные языки программирования для работы с Big Data. Речь идет о Java, Scala и Python.

Java и Scala в большей мере используются специалистами, которых называют Data Engineer, для ETL [20] и ELT и реализации базовых алгоритмов. Python же чаще выступает инструментом в руках тех, кого называют Data Scientist. При этом все указанные языки поддерживаются самым распространенным и популярным на сегодняшний момент решением для обработки больших данных Apache Spark.

Отметим, что на заочном этапе задачи по программированию предлагаться не будут. Это связано с некоторыми ограничениями площадки Яндекс.Контест — пока нет возможности подключить реальные массивы данных для обработки. К очному этапу состязания этот момент будет разрешен.

Подготовка к олимпиаде

Для участников подготовлена специальная программа, которая включает три вебинара по профильному направлению. Лекции читают преподаватели ведущих вузов, объясняя и разбирая примеры олимпиадных заданий.

Вот пример одного из базовых вопросов по большим данным

Большой массив разных растровых фотоизображений в 64-битном формате bmp равномерно распределен по 1000 независимым узлам хранения в единой локальной сети. Для выделения изображений лиц на этих файлах задействован кластер, имеющий 100 вычислительных узлов.

При однократном запуске процесса обработки на всех узлах, по сравнению с одним узлом получено ускорение обработки всего в 52 раза. Значит ли это что:

  • А. Кластер слишком маленький, нужно больше вычислительных узлов, чтобы повысить эффективность;
  • Б. Размеры изображений разные, и из-за этого объективно не удается достичь большей эффективности;
  • А. Коммуникационный канал между хранилищем и кластером слишком слабый;
  • Г. Пока непонятно. Нужно провести серию дополнительных экспериментов в различных конфигурациях.

Ответ: Г. На основе одного измерения причину установить невозможно, так как в зависимости от условий может быть как вариант А, так и В.

Лекция, которую читает Александр Бухановский:

Вторая лекция — о технологических аспектах обработки больших данных. Провел старший научный сотрудник НИИ НКТ Университета ИТМО Александр Вишератин:

В целом для решения заданий олимпиады, необходимо изучить типичные механизмы, лежащие в основе базовых операций обработки Big Data. Речь идет о паттернах во фреймворках Apache Spark и Apache Flink (например, операциях shuffle или broadcast). Неплохо будет изучить работу итеративных алгоритмов, использующихся для машинного обучения на больших данных, таких как Expectation — Maximization [21]. Не помешает и знание структур данных и принципов организации хранения данных, применяемых в современных хранилищах Cassandra или Clickhouse.

Также рекомендуем обратить внимание на курсы от «Яндекса», посвящённые обработке Big Data:

Кстати, прохождение двух из этих курсов позволит миновать отборочный тур по направлению «Большие данные» и попасть сразу на очный этап олимпиады.

Автор: itmo

Источник [25]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/big-data/298735

Ссылки в тексте:

[1] Я — профессионал: https://yandex.ru/profi/

[2] Image: https://habr.com/company/spbifmo/blog/429346/

[3] Christoph Scholz: https://www.flickr.com/photos/140988606@N08/30996463372/in/photostream/

[4] CC BY-SA: https://creativecommons.org/licenses/by-sa/2.0/

[5] 54 направления: https://yandex.ru/profi/courses2018/main/

[6] получают возможность: http://news.ifmo.ru/ru/education/official/news/7874/

[7] зимние школы: http://news.ifmo.ru/ru/education/trend/news/7286/

[8] кто прошел: https://yandex.ru/profi/certificates/

[9] списка: https://yandex.ru/profi/mooc/

[10] Робототехнике: https://habr.com/company/spbifmo/blog/426661/

[11] SIGMOD: https://sigmod2018.org/

[12] SIGKDD: https://www.kdd.org/conferences

[13] ICML: https://icml.cc/

[14] DataFest: http://datafest.ru/

[15] Big Data Conference: https://bigdataconf.org/

[16] Young Science Conference: http://ysc.escience.ifmo.ru/

[17] лекция Германа Грефа: http://news.ifmo.ru/ru/education/official/news/7335/

[18] создали: http://news.ifmo.ru/ru/science/it/news/7039/

[19] Александр Валерьевич Бухановский: http://www.ifmo.ru/ru/viewperson/309/buhanovskiy_aleksandr_valerevich.htm

[20] ETL: https://ru.wikipedia.org/wiki/ETL

[21] Expectation — Maximization: https://ru.wikipedia.org/wiki/EM-%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC

[22] Большие данные для инженеров: https://academy.yandex.ru/events/online-courses/big_data_engineering/

[23] Машинное обучение: углублённый уровень: https://academy.yandex.ru/events/online-courses/aml/

[24] Машинное обучение и анализ данных: https://academy.yandex.ru/events/online-courses/data_analysis/

[25] Источник: https://habr.com/post/429346/?utm_source=habrahabr&utm_medium=rss&utm_campaign=429346