- PVSM.RU - https://www.pvsm.ru -
Меня зовут Саша и я люблю машинное обучение, а также обучение людей. Сейчас курирую образовательные программы в Computer Science центре и руковожу бакалавриатом по анализу данных в СПбГУ. До этого работал аналитиком в Яндексе, а ещё раньше — учёным: занимался математическим моделированием в ИВТ СО РАН.
В этом посте хочу рассказать, что получилось из идеи запуска тренировок по машинному обучению для студентов, выпускников Новосибирского государственного университета и всех желающих.
Мне давно хотелось организовать спецкурс по подготовке к соревнованиям по анализу данных на Kaggle и других платформах. Это казалось отличной идеей:
В Академгородке Новосибирска очень благодатная почва для подобных начинаний: студенты, выпускники и преподаватели Computer Science центра и сильных технических факультетов, например, ФИТ, ММФ, ФФ, мощная поддержка администрации НГУ, активное ODS-сообщество, опытные инженеры и аналитики разных IT-компаний. Примерно тогда же мы узнали о грантовой программе от Botan Investments [1] — фонд поддерживает команды, которые показывают хорошие результаты в соревнованиях по спортивному ML.
Мы нашли аудиторию в НГУ для еженедельных встреч, создали чатик в Телеграме и с 1 октября запустились вместе со студентами и выпускниками CS центра. На первое занятие пришли 19 человек. Шесть из них стали постоянными участниками тренировок. Всего за учебный год на встречу хотя бы раз пришел 31 человек.
Мы с ребятами познакомились, обменялись опытом, обсудили соревнования и примерный план на будущее. Довольно быстро поняли, что борьба за места в соревнованиях по анализу данных — это регулярный изнурительный труд, похожий на неоплачиваемую full-time работу, но очень интересную и захватывающую :) Один из участников, Kaggle-master Максим, посоветовал нам сначала продвигаться в конкурсах индивидуально, и только через несколько недель после этого объединяться в команды, учитывая public score. Мы так и сделали! На очных тренировках обсуждали модели, научные статьи и тонкости Python-библиотек, вместе решали проблемы.
Результатами осеннего семестра стали три серебра в двух соревнованиях на Kaggle: TGS Salt Identification [2] и PLAsTiCC Astronomical Classification [3]. И одно третье место в конкурсе ЦФТ по исправлению опечаток с первыми выигранными деньгами (in the money, как говорят опытные кегглеры).
Ещё одним очень важным косвенным результатом спецкурса стал запуск и настройка кластера ВКИ НГУ. Его вычислительные мощности заметно улучшили нашу соревновательную жизнь: 40 CPU, 755Gb RAM, 8 GPU NVIDIA Tesla V100.
До этого мы выживали как могли: считали на личных ноутбуках и десктопах, в Google Colab и в Kaggle-kernels. У одной команды даже был самописный скрипт, который автоматически сохранял модель и перезапускал расчёт, остановившийся по лимиту времени.
В весеннем семестре мы продолжили собираться, обмениваться успешными находками и рассказывать о своих решениях соревнований. К нам стали приходить новые заинтересованные участники. За весенний семестр получилось взять уже одно золото, три серебра и девять бронз в восьми конкурсах на Kaggle: PetFinder [4], Santander [5], Gendered pronoun resolution [6], Whale Identification [7], Quora [8], Google Landmarks [9] и других, бронзу в Recco challenge [10], третье место в Changellenge>>Cup и первое место (снова in the money) в соревновании по машинному обучению на чемпионате по программированию [11] от Яндекса.
Михаил Карчевский [12]
«Я очень рад, что такая деятельность ведётся у нас в Сибири, так как считаю, что участие в конкурсах — самый быстрый способ освоить ML. Для таких конкурсов железо достаточно дорогое, чтобы купить самостоятельно, а тут можно пробовать идеи бесплатно».
Кирилл Бродт [13]
«До появления мл-тренировок я особо не участвовал в конкурсах за исключением учебных и индусских соревнований: не видел в этом смысла, так как работа у меня в области МО была, да и с ним я знаком. Первый семестр ходил как слушатель. А начиная со второго семестра, как только появились вычислительные ресурсы, подумал, почему бы и не поучаствовать. И меня это затянуло. Задачу, данные и метрики за тебя придумали и приготовили, бери да используй всю мощь МО, проверяй state-of-the-art модели и техники. Если бы не тренировки и, не менее важно, вычислительные ресурсы, я бы не скоро начал участвовать».
Андрей Шевелев [14]
«Очные ML-тренировки помогли мне найти единомышленников, совместно с которыми удалось углубить свои знания в области машинного обучения и анализа данных. Также это отличный вариант для тех, у кого нет особо свободного времени на самостоятельный разбор и погружение в тему конкурсов, но быть в теме все же хочется».
Соревнования на Kaggle и других площадках оттачивают практические умения и быстро конвертируются в интересную работу в области data science. Люди, которые вместе поучаствовали в трудном соревновании, часто становятся коллегами и продолжают успешно решать уже рабочие задачи. Такое случалось и у нас: Михаил Карчевский в паре с другом из команды перешли работать в одну компанию над рекомендательной системой.
Со временем мы планируем расширить эту активность научными публикациями и участием в конференциях по машинному обучению. Присоединяйтесь к нам в качестве участников или экспертов в Новосибирске — пишите мне [15] или Кириллу [13]. Организуйте аналогичные тренировки в своих городах и университетах.
Вот маленькая шпаргалка, которая поможет сделать первые шаги:
Автор: Александр Авдюшенко
Источник [16]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/analiz-danny-h/322326
Ссылки в тексте:
[1] Botan Investments: https://codeforces.com/blog/entry/61637
[2] TGS Salt Identification: https://www.kaggle.com/c/tgs-salt-identification-challenge%EF%BB%BF
[3] PLAsTiCC Astronomical Classification: https://www.kaggle.com/c/PLAsTiCC-2018
[4] PetFinder: https://www.kaggle.com/c/petfinder-adoption-prediction
[5] Santander: https://www.kaggle.com/c/santander-customer-transaction-prediction
[6] Gendered pronoun resolution: https://www.kaggle.com/c/gendered-pronoun-resolution
[7] Whale Identification: https://www.kaggle.com/c/humpback-whale-identification/
[8] Quora: https://www.kaggle.com/c/quora-insincere-questions-classification/
[9] Google Landmarks: https://www.kaggle.com/c/landmark-recognition-2019
[10] Recco challenge: https://boosters.pro/championship/rekko_challenge
[11] чемпионате по программированию: https://yandex.ru/championship/
[12] Михаил Карчевский: https://www.kaggle.com/suvalex
[13] Кирилл Бродт: https://www.kaggle.com/kbrodt
[14] Андрей Шевелев: https://www.kaggle.com/andrewshevelev
[15] мне: https://t.me/ovalur
[16] Источник: https://habr.com/ru/post/458042/?utm_source=habrahabr&utm_medium=rss&utm_campaign=458042
Нажмите здесь для печати.