- PVSM.RU - https://www.pvsm.ru -

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению

6 сентября 2017 года стартует 2 запуск открытого курса OpenDataScience по анализу данных и машинному обучению. На этот раз будут проводиться и живые лекции, площадкой выступит московский офис Mail.Ru Group.

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 1

Если коротко, то курс состоит из серии статей на Хабре (вот [1] первая), воспроизводимых материалов (Jupyter notebooks, вот github-репозиторий [2] курса), домашних заданий, соревнований Kaggle Inclass, тьюториалов и индивидуальных проектов по анализу данных. Здесь [3] можно записаться на курс, а тут [4] — вступить в сообщество OpenDataScience, где будет проходить все общение в течение курса (канал #mlcourse_open в Slack ODS). А если поподробней, то это вам под кат.

План статьи

В чем особенность курса

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 2

Цель курса — помочь быстро освежить имеющиеся у вас знания и найти темы для дальнейшего изучения. Курс вряд ли подойдет именно как первый по этой теме. Мы не ставили себе задачу создать исчерпывающий курс по анализу данных и машинному обучению, но хотели создать курс с идеальным сочетанием теории и практики. Поэтому алгоритмы объясняются достаточно подробно и с математикой, а практические навыки подкрепляются домашними заданиями, соревнованиями и индивидуальными проектами.

Большой плюс именно этого курса — активная жизнь на форуме (Slack сообщества OpenDataScience). В двух словах, OpenDataScience — это крупнейшее русскоязычное сообщество DataScientist-ов, которое делает множество классных вещей, в том числе организует Data Fest [17]. При этом сообщество активно живет в Slack’e, где любой участник может найти ответы на свои DS-вопросы, найти единомышленников и коллег для проектов, найти работу и т.д. Для открытого курса создан отдельный канал, в котором 3-4 сотни людей, изучающих то же, что и ты, помогут в освоении новых тем.

Выбирая формат подачи материала, мы остановились на статьях на Хабре и тетрадках Jupyter. Теперь еще добавятся "живые" лекции и их видеозаписи.

На кого рассчитан курс и как к нему подготовиться

Пререквизиты: нужно знать математику (линейную алгебру, аналитическую геометрию, математический анализ, теорию вероятностей и матстатистику) на уровне 2 курса технического вуза. Нужно немного уметь программировать на языке Python.

Если вам не хватает знаний или скиллов, то в первой статье [18] серии мы описываем, как повторить математику и освежить (либо приобрести) навыки программирования на Python.

Да, еще не помешает знание английского, а также хорошее чувство юмора.

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 3

Что в себя включает курс

Статьи

Мы сделали ставку на Хабр и подачу материала в форме статьи. Так можно в любой момент быстро и легко найти нужную часть материала. Статьи уже готовы, за сентябрь-ноябрь они будут частично обновлены, а также добавится еще одна статья про градиентный бустинг.

Список статей серии:

  1. Первичный анализ данных с Pandas [1]
  2. Визуальный анализ данных c Python [19]
  3. Классификация, деревья решений и метод ближайших соседей [20]
  4. Линейные модели классификации и регрессии [21]
  5. Композиции: бэггинг, случайный лес [22]
  6. Построение и отбор признаков. Приложения в задачах обработки текста, изображений и геоданных [23]
  7. Обучение без учителя: PCA, кластеризация [24]
  8. Обучение на гигабайтах c Vowpal Wabbit [25]
  9. Анализ временных рядов с помощью Python [26]
  10. Градиентный бустинг [27]

Лекции

Лекции будут проходить в московском офисе Mail.Ru Group по средам с 19.00 до 22.00, с 6 сентября по 8 ноября. На лекциях будет разбор теории в целом по тому же плану, что описан в статье. Но также будут разборы задач лекторами вживую, а последний час каждой лекции будет посвящен практике — слушатели сами будут анализировать данные (да, прямо писать код), а лекторы — помогать им в этом. Посетить лекцию смогут топ-30 участников курса по текущему рейтингу. На рейтинг будут влиять домашние задания, соревнования и проекты по анализу данных. Также будут организованы трансляции лекций.

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 4

Лекторы:

  • Юрий Кашницкий. Программист-исследователь Mail.Ru Group и старший преподаватель факультета компьютерных наук ВШЭ, а также преподаватель в годовой программе дополнительного образования по анализу данных в ВШЭ.
  • Алексей Натекин. Основатель сообщества OpenDataScience и DM Labs, Chief Data Officer в Diginetica. В прошлом — глава отдела аналитики Deloitte. Идейный лидер сообщества OpenDataScience, организатор DataFest.
  • Дмитрий Сергеев. Data Scientist в Zeptolab, лектор в Центре Математических Финансов МГУ.

Про всех авторов статей курса при желании можно прочитать здесь [28].

Домашние задания

Каждая из 10 тем сопровождается домашним заданием, на которое дается 1 неделя. Задание — в виде тетрадки Jupyter, в которую надо дописать код и на основе этого выбрать правильный ответ в форме Google. Домашние задания — это первое, что начнет влиять на рейтинг участников курса и, соответственно, на то, кто сможет вживую посещать лекции.

Сейчас в репозитории [2] курса вы можете видеть 10 домашних заданий с решениями. В новом запуске курса домашние задания будут новыми.

Тьюториалы

Одно из творческих заданий в течение курса — выбрать тему из области анализа данных и машинного обучения и написать по ней тьюториал. С примерами того, как оно было, можно познакомиться тут [29]. Опыт оказался удачным, участники курса сами написали несколько очень добротных статей по темам, которые в курсе не рассматривались.

Соревнования Kaggle Inclass

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 5

Конечно, без практики в анализе данных никуда, и именно в соревнованиях можно очень быстро что-то узнать и научиться делать. К тому же, мотивация в виде различных плюшек (денег и рейтинга в "большом" Kaggle и просто в виде рейтинга у нас в курсе) способствуют очень активному изучению новых методов и алгоритмов именно в ходе соревнования по анализу данных. В первом запуске курса предлагалось два соревнования, в которых решались очень интересные задачи:

  • Идентификация [30] взломщика по его поведению в сети Интернет. Имелись реальные данные о посещении пользователями различных сайтов, и надо было по последовательности из посещенных за 30 минут сайтов понять, была ли это некто Элис или кто-то другой.
  • Прогноз [31] популярности статьи на Хабре. В этом задании по тексту, времени и прочим признакам публикации на Хабре надо было предсказать популярность этой статьи — число добавлений в избранное.

Индивидуальные проекты

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 6

Из паблика [32] Вконтакте "Мемы про машинное обучение для взрослых мужиков".

Курс рассчитан на 2.5 месяца, а активностей запланировано немало. Но обязательно рассмотрите возможность выполнить собственный проект по анализу данных, от начала до конца, по плану, предложенному преподавателями, но с собственными данными. Проекты можно обсуждать с коллегами, а по окончании курса будет устроена peer-review проверка проектов.
Подробности про проекты будут позже, а пока вы можете подумать, какие бы данные вам взять, чтобы "что-то для них прогнозировать". Но если идей не будет, не страшно, мы посоветуем какие-нибудь интересные задачи и данные для анализа, причем они могут быть разными по уровню сложности.

Как мне записаться на курс?

Для участия в курсе заполните этот [3] опрос, а также вступите в сообщество [4] OpenDataScience (в графе "Откуда вы узнали об OpenDataScience?" ответьте "mlcourse_open"). В основном общение в течение курса будет проходить в Slack OpenDataScience в канале #mlcourse_open.

Как прошел первый запуск курса

Первый запуск прошел с февраля по июнь 2017 года, записалось около тысячи человек, первую домашку сделали 520, а последнюю — 150 человек. Жизнь на форуме просто кипела, в соревнованиях Kaggle было сделано несколько тысяч посылок, участники курса написали с десяток тьюториалов. И, судя по отзывам, получили отличный опыт, с помощью которого дальше можно окунаться в нейронные сети, соревнования на Kaggle или в теорию машинного обучения.

Бонусом для топ-100 финалистов курса был митап в московском офисе Mail.Ru Group, на котором было 3 лекции по актуальным в современном DS темам:

  • Обработка больших данных при помощи Apache Spark (Виталий Худобахшов, "Одноклассники"). Видео: часть1 [33], часть2 [34];
  • Основы нейронных сетей и Deep Learning (Алексей Озерин, Reason8.ai), видео [35];
  • Deep Learning в решении задач сентимент анализа (Виталий Радченко, Ciklum), видео [36].

Бонус: совместное прохождение курса cs231n

И последнее, чем пока порадуем: с середины ноября 2017 года, сразу по окончании вводного курса по машинному обучению, там же в канале #mlcourse_open в Slack ODS будем вместе проходить один из лучших курсов по нейронным сетям — стэнфордский курс [37] cs231n “Convolutional Neural Networks for Visual Recognition”.

Успехов вам в изучении этой прекрасной дисциплины — машинного обучения! И вот эти два товарища тут — для мотивации.

OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению - 7

Andrew Ng берет интервью [38] у Andrej Karpathy в рамках специализации по Deep Learning.

Автор: yorko

Источник [39]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/python/262070

Ссылки в тексте:

[1] вот: https://habrahabr.ru/company/ods/blog/322626/

[2] github-репозиторий: http://github.com/Yorko/mlcourse_open

[3] Здесь: https://docs.google.com/forms/d/e/1FAIpQLSdBk_BnCZbooF2qIUOPK0JbBibVgDWjOE4zQpC9oh_Jv8YcXw/viewform

[4] тут: http://ods.ai/

[5] В чем особенность курса: https://habrahabr.ru/company/mailru/blog/334960/#v-chem-osobennost-kursa

[6] На кого рассчитан курс и как к нему подготовиться: https://habrahabr.ru/company/mailru/blog/334960/#na-kogo-rasschitan-kurs-i-kak-k-nemu-podgotovitsya

[7] Что в себя включает курс: https://habrahabr.ru/company/mailru/blog/334960/#chto-v-sebya-vklyuchaet-kurs

[8] Статьи: https://habrahabr.ru/company/mailru/blog/334960/#stati

[9] Лекции: https://habrahabr.ru/company/mailru/blog/334960/#lekcii

[10] Домашние задания: https://habrahabr.ru/company/mailru/blog/334960/#domashnie-zadaniya

[11] Тьюториалы: https://habrahabr.ru/company/mailru/blog/334960/#tyutorialy

[12] Соревнования Kaggle Inclass: https://habrahabr.ru/company/mailru/blog/334960/#sorevnovaniya-kaggle-inclass

[13] Индивидуальные проекты: https://habrahabr.ru/company/mailru/blog/334960/#individualnye-proekty

[14] Как мне записаться на курс?: https://habrahabr.ru/company/mailru/blog/334960/#kak-mne-zapisatsya-na-kurs

[15] Как прошел первый запуск курса: https://habrahabr.ru/company/mailru/blog/334960/#kak-proshel-pervyy-zapusk-kursa

[16] Бонус: совместное прохождение курса cs231n: https://habrahabr.ru/company/mailru/blog/334960/#bonus-sovmestnoe-prohozhdenie-kursa-cs231n

[17] Data Fest: http://datafest.ru/

[18] статье: https://habrahabr.ru/company/ods/blog/322626/#1-o-kurse

[19] Визуальный анализ данных c Python: https://habrahabr.ru/company/ods/blog/323210/

[20] Классификация, деревья решений и метод ближайших соседей: https://habrahabr.ru/company/ods/blog/322534/

[21] Линейные модели классификации и регрессии: https://habrahabr.ru/company/ods/blog/323890/

[22] Композиции: бэггинг, случайный лес: https://habrahabr.ru/company/ods/blog/324402/

[23] Построение и отбор признаков. Приложения в задачах обработки текста, изображений и геоданных: https://habrahabr.ru/company/ods/blog/325422/

[24] Обучение без учителя: PCA, кластеризация: https://habrahabr.ru/company/ods/blog/325654/

[25] Обучение на гигабайтах c Vowpal Wabbit: https://habrahabr.ru/company/ods/blog/326418/

[26] Анализ временных рядов с помощью Python: https://habrahabr.ru/company/ods/blog/327242/

[27] Градиентный бустинг: https://habrahabr.ru/company/ods/blog/327250/

[28] здесь: https://github.com/Yorko/mlcourse_open/wiki/%D0%90%D0%B2%D1%82%D0%BE%D1%80%D1%8B-%D1%81%D1%82%D0%B0%D1%82%D0%B5%D0%B9-%D0%B8-%D0%BB%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D1%8B

[29] тут: https://github.com/Yorko/mlcourse_open/wiki/%D0%A2%D1%8C%D1%8E%D1%82%D0%BE%D1%80%D0%B8%D0%B0%D0%BB%D1%8B,-%D0%BD%D0%B0%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D1%83%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA%D0%B0%D0%BC%D0%B8-%D0%BA%D1%83%D1%80%D1%81%D0%B0

[30] Идентификация: https://inclass.kaggle.com/c/catch-me-if-you-can-intruder-detection-through-webpage-session-tracking

[31] Прогноз: https://inclass.kaggle.com/c/howpop-habrahabr-favs

[32] паблика: https://vk.com/weirdkerneltricks

[33] часть1: https://www.youtube.com/watch?v=kVnCncDMX68

[34] часть2: https://www.youtube.com/watch?v=EWVBpdLatGw

[35] видео: https://www.youtube.com/watch?v=db0Qxm8E2qE

[36] видео: https://www.youtube.com/watch?v=C6IUbX0ePBg

[37] курс: http://cs231n.stanford.edu/

[38] интервью: https://www.youtube.com/watch?v=_au3yw46lcg

[39] Источник: https://habrahabr.ru/post/334960/