В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»

в 9:13, , рубрики: big data, Блог компании Университет ИТМО, машинное обучение, олимпиада для студентов, Университет ИТМО, Я — профессионал

Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал» - 1
Christoph Scholz / Flickr / CC BY-SA

Пара слов об олимпиаде «Я — профессионал»

Олимпиада проводится для студентов самых разных специальностей.

В этом году зарегистрированы 54 направления: есть математика, искусственный интеллект, программная инженерия, интернет вещей, фотоника и многие другие.

Зачем участвовать. Победители получают возможность поступить в российские вузы без экзаменов и пройти стажировку в крупных компаниях-партнерах олимпиады: Яндексе, Сбербанке, MRG и так далее. Студенты, которые покажут хорошие результаты, получат возможность посетить зимние школы. Там можно будет познакомиться с экспертами индустрии.

Формат участияРегистрация — до 22 ноября. С 24 ноября по 9 декабря в режиме онлайн состоится отборочный тур. Его могут пропустить те, кто прошел не менее двух онлайн-курсов из утвержденного организаторами списка. В феврале 2019 года начнутся заключительные этапы.

Они пройдут очно в разных университетах страны. Университет ИТМО курирует сразу пять направлений олимпиады. О некоторых из них, в частности, о «Робототехнике», мы рассказывали ранее. Сегодня представим направление «Большие данные». Это — новинка олимпиады этого года.

Направление «Большие данные»: что нужно знать

В мире проводится множество мероприятий и семинаров, посвященных Big Data.

Стоит упомянуть международные конференции SIGMOD, SIGKDD или ICML. Все больше подобных событий проходит и в нашей стране. Например, DataFest, Big Data Conference от Rusbase и многочисленные митапы по технологиям управления и анализа Big Data.

Университет ИТМО также участвует в различных мероприятиях и проводит собственные. Такие как серия конференций YSC (Young Science Conference), лекция Германа Грефа и недавний закрытый воркшоп, прошедший в MRG. Большие данные занимают важное место в разработке новых IT-систем и решений в других сферах деятельности. В Университете ИТМО идет активная работа с применением и развитием технологий Big Data во всех плоскостях.

Например, сотрудники кафедры высокопроизводительных вычислений Университета ИТМО создали семантическое распределенное хранилище данных Exarch. Оно обеспечивает быстрый доступ к данным, оптимизирует процессы их обработки. Exarch позволяет в два раза сократить время выполнения простых задач, по сравнению с инструментами вроде HDFS и Cassandra.

Учитывая опыт и научные интересы вуза в области работы с большими данными, мы не могли упустить возможность открыть такое направление в рамках проекта «Я — профессионал». Курирует этот трек олимпиады Александр Валерьевич Бухановский, доктор технических наук, директор мегафакультета трансляционных информационных технологий Университета ИТМО. Сейчас он с командой, в которую входят и аспиранты вуза, занимается подготовкой заданий.

В направление «Большие данные» входит Анализ данных, статистика и машинное обучение плюс Технологии распределенных вычислений и систем. Первое поднаправление связано с математикой и подходами к обработке больших объемов данных. Второе — строится вокруг программирования и высокопроизводительных вычислений, направленных на оптимизацию аналитических процессов.

Участники будут использовать платформу Яндекс.Контест и самые популярные языки программирования для работы с Big Data. Речь идет о Java, Scala и Python.

Java и Scala в большей мере используются специалистами, которых называют Data Engineer, для ETL и ELT и реализации базовых алгоритмов. Python же чаще выступает инструментом в руках тех, кого называют Data Scientist. При этом все указанные языки поддерживаются самым распространенным и популярным на сегодняшний момент решением для обработки больших данных Apache Spark.

Отметим, что на заочном этапе задачи по программированию предлагаться не будут. Это связано с некоторыми ограничениями площадки Яндекс.Контест — пока нет возможности подключить реальные массивы данных для обработки. К очному этапу состязания этот момент будет разрешен.

Подготовка к олимпиаде

Для участников подготовлена специальная программа, которая включает три вебинара по профильному направлению. Лекции читают преподаватели ведущих вузов, объясняя и разбирая примеры олимпиадных заданий.

Вот пример одного из базовых вопросов по большим данным

Большой массив разных растровых фотоизображений в 64-битном формате bmp равномерно распределен по 1000 независимым узлам хранения в единой локальной сети. Для выделения изображений лиц на этих файлах задействован кластер, имеющий 100 вычислительных узлов.

При однократном запуске процесса обработки на всех узлах, по сравнению с одним узлом получено ускорение обработки всего в 52 раза. Значит ли это что:

  • А. Кластер слишком маленький, нужно больше вычислительных узлов, чтобы повысить эффективность;
  • Б. Размеры изображений разные, и из-за этого объективно не удается достичь большей эффективности;
  • А. Коммуникационный канал между хранилищем и кластером слишком слабый;
  • Г. Пока непонятно. Нужно провести серию дополнительных экспериментов в различных конфигурациях.

Ответ: Г. На основе одного измерения причину установить невозможно, так как в зависимости от условий может быть как вариант А, так и В.

Лекция, которую читает Александр Бухановский:

Вторая лекция — о технологических аспектах обработки больших данных. Провел старший научный сотрудник НИИ НКТ Университета ИТМО Александр Вишератин:

В целом для решения заданий олимпиады, необходимо изучить типичные механизмы, лежащие в основе базовых операций обработки Big Data. Речь идет о паттернах во фреймворках Apache Spark и Apache Flink (например, операциях shuffle или broadcast). Неплохо будет изучить работу итеративных алгоритмов, использующихся для машинного обучения на больших данных, таких как Expectation — Maximization. Не помешает и знание структур данных и принципов организации хранения данных, применяемых в современных хранилищах Cassandra или Clickhouse.

Также рекомендуем обратить внимание на курсы от «Яндекса», посвящённые обработке Big Data:

Кстати, прохождение двух из этих курсов позволит миновать отборочный тур по направлению «Большие данные» и попасть сразу на очный этап олимпиады.

Автор: itmo

Источник


* - обязательные к заполнению поля