Рубрика «kaggle» - 7

Kaggle: Allstate Claims Severity - 1

Хотелось бы описать решение к недавнему соревнованию по машинному обучению Allstate Claims Severity. (Мой результат 40 из 3055). Так как это это соревнование типа «ансамблевое рубилово», как правило, обсуждение решений вызывает нездоровые священные войны между теми, кто пробовал участвовать и теми кто нет, так что для начала я сделаю небольшое лирическое отступление.

Заранее извиняюсь за обилие английских слов. Какие-то я не знаю как перевести, а какие-то мне переводить не хочется.

Мне нравится думать о машинном обучении как о трех мало связанных между собой направлениях, что я и попытался изобразить на картинке выше, и каждое из этих направлений преследует свои цели.

Например, в академической среде твоя производительность, да и вообще личная крутизна меряется числом и качеством опубликованных статей — и тут важна новизна идей, но насколько эти идеи можно применить на практике прямо сейчас это дело десятое.

В бизнесе сколько денег твои модели приносят компании и тут важна интерпретируемость, масштабируемость, скорость работы и прочее.

В соревновательном машинном обучении задача — всех победить. То есть то, что модель будет немасштабируемой, и тренировать ее надо неделями — это приeмлимо.

Читать полностью »

Kaggle — это платформа для проведения конкурсов по машинному обучению. На Хабре частенько пишут про неё: 1, 2, 3, 4, и.т.д.
Конкурсы на Kaggle интересные и практичные. Первые места обычно сопровождаются неплохими призовыми (топовые конкурсы — более 100к долларов). В последнее время на Kaggle предлагали распознавать:

И многое-многое другое.
Мне давно хотелось попробовать, но что-то всё время мешало. Я разрабатывал много систем, связанных с обработкой изображений: тематика близка. Навыки более лежат в практической части и классических Computer Vision (CV) алгоритмах, чем в современных Machine Learning техниках, так что было интересно оценить свои знания на мировом уровне плюс подтянуть понимание свёрточных сетей.
И вот внезапно всё сложилось. Выпало пару недель не очень напряжённого графика. На kaggle проходил интересный конкурс по близкой тематике.Я обновил себе комп. А самое главное — подбил vasyutka и Nikkolo на то, чтобы составить компанию.
Сразу скажу, что феерических результатов мы не достигли. Но 18 место из 1.5 тысяч участников я считаю неплохим. А учитывая, что это наш первый опыт участия в kaggle, что из 3х месяц конкурса мы участвовали лишь 2.5 недели, что все результаты получены на одной единственной видеокарте — мне кажется, что мы хорошо выступили.
О чём будет эта статья? Во-первых, про саму задачу и наш метод её решения. Во-вторых, про процесс решения CV задач. Я писал достаточно много статей на хабре о машинном зрении(1,2,3), но писанину и теорию всегда лучше подкреплять примером. А писать статьи по какой-то коммерческой задаче по очевидным причинам нельзя. Теперь наконец расскажу про процесс. Тем более что тут он самый обычный, хорошо иллюстрирующий как задачи решаются. В-третьих, статья про то, что идёт после решения идеализированной задаче в вакууме: что будет когда задача столкнётся с реальностью.
Kaggle – наша экскурсия в царство оверфита - 1
Читать полностью »

kaggle-monster2

Превью

Здравствуй! 25-го апреля 2016 года закончилось 3-х месячное напряженное соревнование Home Depot Product Search Relevance в котором нашей команде Turing Test (Igor Buinyi, Kostiantyn Omelianchuk, Chenglong Chen) удалось не только неплохо разобраться с Natural Language Processing и ML, но и занять 3-е место из 2125 команд. Полное описание нашего решения и код доступны тут, краткое интервью тут, а цель этой публикации не только рассказать о решении, которое принесло нам такой результат, но и о тех трудностях и переживаниях, через которые нам довелось пройти во время соревнования.
Читать полностью »

image

27 мая в офисе Mail.Ru Group прошёл очередной Moscow Data Science Meetup. На встрече собирались представители крупных российских компаний и научных организаций, а также энтузиасты в области машинного обучения, рекомендательных систем анализа социальных графов и смежных дисциплин. Гости делились друг с другом своим опытом решения практических задач анализа данных. Предлагаем вашему вниманию видеозаписи и презентации трёх докладов, представленных на встрече.
Читать полностью »

Привет! Три месяца назад мы объявили о старте соревнования по машинному обучению BlackBox Challenge, а недавно оно закончилось. В этом посте организаторы соревнования расскажут о том, как всё прошло.

Итоги Black Box Challenge - 1


Вдохновившись результатами Google DeepMind по reinforcement learning, мы поняли, как здорово, когда система не использует человеческую экспертизу, а сама учится понимать окружающую среду. Мы решили сделать соревнование, в котором участникам нужно создать как раз такую систему.
Читать полностью »

С мая по сентябрь любители сложных задач по машинному обучению могут принять участие в нескольких конкурсах, предлагающих крупные денежные призы. Конкурсы проводят ресурсы: Kaggle, специализирующийся на соревнованиях такого плана, DCA, создающий сервисы на технологиях Big Data, платформа исследования искусственного интеллекта на базе игры Дум ViZDoom и Национальная библиотека медицины США.

Соревнования по машинному обучению (весна-лето 2016) - 1
Читать полностью »

Привет! Если кратко, приглашаем всех поучаствовать в необычном конкурсе по машинному обучению Black Box Challenge, который проходит при поддержке DCA.

Как выиграть в игру с неизвестными правилами? - 1


Условия просты: нужно написать бота, который умеет играть в игру с неизвестными правилами. Победители получат ценные призы: от Xbox One до 300 тыс. рублей за первое место и возможность попасть в крутые компании на позицию специалиста по машинному обучению.

Ниже мы расскажем о соревновании в формате вопрос-ответ.
Читать полностью »

Школа Данных «Билайн»: весна, знания, новый курс - 1

Привет.

Итак, третий курс Школы Данных «Билайн» подходит к завершению и мы набираем четвёртый.

У нас 18 занятий, 36 часов, все основные темы машинного обучения и анализа данных, куча практики, куча домашек, два Kaggle соревнования, презентации и воркшопы от партнеров, возможность устройства в Билайн в команду BigData для лучших студентов, сокурсники из различных областей бизнеса, где применяется машинное обучение и много чего ещё.
Читать полностью »

Приглашаем на Data Fest 5 и 6 марта - 1

5 и 6 марта в московском офисе компании Mail.Ru Group состоится Data Fest2 — двухдневная серия митапов российских Data Science-сообществ Moscow Data Fest и Moscow Data Science. Data Fest2 — это конференция, на которой участникам представится возможность познакомиться с разными направлениями в современном анализе данных: от сугубо практических вопросов внедрения результатов исследований до самых последних теоретических разработок в анализе текстов и глубоком обучении.

В рамках конференции также пройдут два мероприятия, где все участники смогут проявить себя: хакатон для желающих посоревноваться друг с другом в предсказании исхода турнира по Dota 2 и питч-постер сессия для исследователей, где можно будет представить результаты своих исследований и разработок.
Читать полностью »

Школа Данных «Билайн», для менеджеров - 1

Привет!

Итак, мы запустили третий курс Школы Данных «Билайн». Подробный отчет о занятиях от одного из участников можно почитать здесь.

Отчеты о работе Школы мы также будем выкладывать на официальной странице Школы в Facebook. Там же будем отвечать на вопросы, которые также можно направлять на dataschool@beeline.digital.

Набираем 4-ый курс, который стартует с 4 апреля. Запись, как всегда, на странице Школы.

Однако, данный пост не только об этом. До сих пор в Школе Данных мы учили аналитиков, учили тому, как применять методы машинного обучения для решения практических задач. Однако, практически любая практическая задача начинается с бизнес-потребности и бизнес- постановки.

Мы сейчас не будем говорить о том, что на заре больших данных считалось, что основные инсайты и применения аналитики идут скорее от данных. Это безусловно есть, но в нашей практике это происходит в соотношении 80 к 20, где 80 процентов всех задач для аналитика или даже больше рождается от бизнеса.

Однако, как же бизнес генерит эти задачи, если он, бизнес, не разбирается в аналитике данных? Да, очень просто. В нашей компании мы потратили какое-то время на объяснение бизнесу возможностей аналитики данных и теперь разные подразделения заваливают нас заказами придумывая все новые применения этим инструментам.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js