- PVSM.RU - https://www.pvsm.ru -

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

image

21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.

О платформе ML Boot Camp

ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.

На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.

Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.

В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.

Новая задача

На этот раз мы предлагаем вам "Задачу с секретом". Содержательную постановку задачи мы раскрывать не будем. Она останется неизвестной до конца соревнования. Вы сможете испытать ваши аналитические способности по полной программе!

Перед вами стоит задача классификации: на основе известного распределения по пяти классам обучающих элементов, распределить тестовые. В качестве ответа присылайте текстовый файл, каждая строка которого соответствует строке в файле с тестовыми данными и содержит номер класса (0, 1, 2, 3 или 4). Предлагаем вам целых 42 числовых признака для классификации!

Критерием качества решения будет доля правильно классифицированных объектов. Тестовая выборка случайным образом разбита на две части в соотношении 40/60. Результат на первых 40 % будет определять положение участников в рейтинговой таблице на всем протяжении конкурса. Результат на оставшихся 60 % станет известен после окончания конкурса и определит финальную расстановку участников. Удачи!

Выражаем огромную благодарность ННГУ им. Н. И. Лобачевского и лично Николаю Золотых и Олегу Дурандину за помощь в подготовке задачи и экспертное сопровождение чемпионата! Николай и Олег участвовали в проведении каждого нашего ML чемпионата, без них мы не осилили бы и половины того, что сделано сейчас.

Полезные материалы

Обучающая статья

Если вы новичок, рекомендуем вам прочитать небольшой туториал [1] на нашей платформе. В нем вы разберете задачу "Кредитный скоринг" и научитесь предсказывать, вернется ли к банку кредит по данным клиента.

image
В статье есть выжимки тестовых данных, их визуализации, куски кода на Python и все смысловые выводы

Разбор ML BootCamp I

На ML Boot Camp мы уже работали с анонимными данными. В закрытом студенческом контесте [2] мы попросили классифицировать бинарные последовательности. В качестве критерия качества также выступала доля правильных ответов. Павел Швечиков добился впечатляющих 0,6785 при условии, что одни последовательности писали люди, вторые — генератор случайных чисел, а третьи — алгоритм.

Мы попросили победителей контеста рассказать основные идеи их решения и собрали их в отдельной публикации на Хабре [3]. Возможно, их идеи помогут вам выбрать направление движения. Посмотрите, там есть крутые визуализации:

image
Визуализировать можно все. Даже бинарные последовательности

Песочница

Потренироваться перед стартом чемпионата, в том числе на задаче про "Бинарные деревья" можно в Песочнице [4]. Там доступны любые задачи прошедших чемпионатов, можно загрузить свое решение и узнать оценку. Для каждой задачи в песочнице есть свой лидерборд. Если новая задача покажется вам слишком сложной (или, наоборот, простой) — покоряйте остальные.

image
В песочнице можно решать все задачи старых контестов

Чат в Телеграме

Теперь благодаря официальном чате чемпионата [5] вы можете задать свой вопрос напрямую организаторам. А еще можете попросить совета или поделиться догадками о решении. Все участники собираются здесь и штурмуют задачу. Вам помогут свежими идеями и добрыми словами.

image
В чате участвуют опытные машинлернеры, включая победителей прошлых контестов

Форум

Участники очень просили форум для вынесения туда того, что может легко потеряться в чате. Не факт, что мы успеем открыть его именно к старту состязания, но точно можем обещать, что в ближайшее время форум появится на нашей площадке.

Два решения в качестве ответа

С этого момента вы можете выбрать два решения в качестве финального ответа. То, что наберет больший Score на итоговой выборке станет вашим результатом в чемпионате. Это поможет вам, например, если в одном из решений у вас более устойчивая модель, но другое дает лучший результат на тестовой выборке.

Призы

В этот раз мы разобьем стройные ряды техники Apple в призовом фонде. За первое место подарим ноутбук MacBook Air 13 [6], за второе и третье — умные часы Samsung Gear S3 Frontier [7]. Если не попадете в тройку лидеров, но войдете в ТОП-6 — с вами подружится персональный облачный накопитель WD My Cloud объемом в 6TB [8]. И, как всегда, ТОП-50 участников чемпионата получат футболки с логотипом чемпионата.

Регистрация

Чемпионат откроется 21 апреля. Зарегистрироваться на платформе можно по этой ссылке [9]. Пока движуха не началась, приходите решать задачи в Песочницу [4].

Автор: sat2707

Источник [10]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/algoritmy/253254

Ссылки в тексте:

[1] туториал: http://mlbootcamp.ru/article/tutorial/

[2] закрытом студенческом контесте: http://mlbootcamp.ru/sandbox/6/

[3] публикации на Хабре: https://habrahabr.ru/company/mailru/blog/302674/

[4] Песочнице: http://mlbootcamp.ru/sandbox/

[5] официальном чате чемпионата: https://t.me/mailrucontests

[6] MacBook Air 13: https://www.apple.com/ru/macbook-air/

[7] Samsung Gear S3 Frontier: http://www.samsung.com/ru/consumer/mobile-devices/wearables/gear/SM-R760NDAASER/

[8] WD My Cloud объемом в 6TB: http://mycloud.com/

[9] по этой ссылке: http://mlbootcamp.ru/signup/

[10] Источник: https://habrahabr.ru/post/326860/