- PVSM.RU - https://www.pvsm.ru -
Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo [1]. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование [2] от Quora [3], в котором необходимо построить модель для определения вопросов-дубликатов.
Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.
Модель по определению одинаковых по сути вопросов можно использовать в форумах, техподдержке, онлайн-консультациях и т.д., например, чтобы не плодить одинаковые темы или автоматически отвечать на популярные вопросы. Собственно говоря, довольно полезная история.
В первом приближении эту задачу можно решать в постановке бинарной классификации – по паре вопросов учиться предсказывать, являются ли они дубликатами или нет. Тогда начинает работать стандартный сеттинг машинного обучения – обучение с учителем. Размеченные пары для обучения предоставлены организаторами соревнования, и нам достаточно выполнить два шага: сгенерировать по парам вопросов признаки, а затем выбрать их и обучить классификатор.
Одно из самых простых решений — поверить, что вопросы являются дубликатами, если они состоят из почти одних и тех же слов (модель bag of words [4]). Тогда признаковое описание для одного вопроса – вектор из частот вхождений слов.
Пример решения с такими признаками и логистической регрессией можно найти по здесь [5].
Дальнейшее развитие решения ограничено только вашей фантазией:
Больше примеров можно найти ниже:
Чтобы подать заявку на грант нужно выполнить следующие шаги:
По итогам несколько участников получат полные гранты (бесплатное участие), показавшие достойные результаты – частичные гранты. Подробнее в письме, которое будет выслано после регистрации.
О школах:
13 – 26 июня, 1 – 14 июля, 16 – 29 августа в 100 км от Москвы пройдут летние проектные школы GoTo [9] для старшеклассников и младшекурсников, интересующихся прикладным программированием, анализом данных, биоинформатикой, информационной безопасностью, интернетом вещей с робототехникой. Участник каждой школы получает возможность реализовать проект или провести исследование, работу над проектами курируют преподаватели лучших университетов и эксперты ведущих компаний.
В рамках отбора проводятся конкурсы на бесплатное участие по каждому направлению: прикладное программирование, hardware, анализ данных, информационная безопасность, биоинформатика. Анонсы остальных конкурсов выкатим в ближайшее время.
Все вопросы или предложения можно присылать на school@goto.msk.ru [10].
Автор: bibilov
Источник [11]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/python/253603
Ссылки в тексте:
[1] школ GoTo: https://goto.msk.ru/camp_summer
[2] kaggle-соревнование: https://www.kaggle.com/c/quora-question-pairs
[3] Quora: https://www.quora.com/
[4] bag of words: https://en.m.wikipedia.org/wiki/Bag-of-words_model
[5] здесь: http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/fbjtixk4ufq7io0/quora_baseline.ipynb
[6] Форум: https://www.kaggle.com/c/quora-question-pairs/discussion
[7] Описание: https://www.8host.com/blog/obrabotka-yazykovyx-dannyx-v-python-3-s-pomoshhyu-nltk/
[8] Вводные материалы: https://github.com/goto-ru/Basic_ML
[9] сайте школы: http://goto.msk.ru/camp_summer
[10] school@goto.msk.ru: mailto:school@goto.msk.ru
[11] Источник: https://habrahabr.ru/post/327206/
Нажмите здесь для печати.