Рубрика «kaggle» - 6

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle

2017-06-29 в 23:30, admin, рубрики: data science, kaggle, python, аналитика данных, обучение без учителя, обучение онлайн, Учебный процесс в IT

В моей прошлой статье посвящённой освоению науки о данных (или по заграничному — Data Science) с абсолютного нуля (даже ниже чем -273 градуса по Кельвину) я обещал, что подготовлю материал о том, как я осваивал kaggle (буду писать с маленькой буквы, как у них на логотипе).

Для тех, кто так же, как и я только начинает знакомится с данным вопросом, поясню что как я понял kaggle это сайт, посвящённый соревнованиям и в некоторой степени обучению в области Data Science, где каждый может совершенно бесплатно и используя любые доступные инструменты, сделать прогноз по той или иной задаче.

Слов на ветер бросать не люблю, раз уж пообещал, то хочешь не хочешь — пиши, поэтому если вам интересно что же в итоге у меня из всего это вышло прошу под кат.

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle - 1
Читать полностью »

«Теперь он и тебя сосчитал» или Наука о данных с нуля (Data Science from Scratch)

2017-06-27 в 22:01, admin, рубрики: data science, kaggle, python, математика, новичкам, самоучитель, статистика, Учебный процесс в IT

Не так давно я рассказывал о том, как случайно познакомился с понятием Data Science, благодаря курсам от Cognitive Class. Кратко резюмируя ту статью скажу, что по результатам курса я толком ничему не научился, но мне стало любопытно, поэтому спустя какое-то время я побежал в магазин и купил книгу, которой и посвящён данный материал.

Не знаю на сколько уместно на Хабре описывать возможность обучения по печатному самоучителю, но в конце концов этот хаб же про учебный процесс в IT и поэтому если вам интересно, чему может научить эта книга полного новичка в области Data Science и стоит ли тратить на этот этап время и деньги, то милости прошу под кат.
«Теперь он и тебя сосчитал» или Наука о данных с нуля (Data Science from Scratch) - 1
Читать полностью »

Расчет оттока клиентов банка (решение задачи с помощью Python)

2017-05-24 в 9:18, admin, рубрики: kaggle, pandas, python, sklearn, Занимательные задачки

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.Читать полностью »

Открытый курс машинного обучения. Тема 10. Градиентный бустинг. Часть 1

2017-05-18 в 10:49, admin, рубрики: boosting, data mining, Gradient Boosting, kaggle, loss function, machine learning, Алгоритмы, Блог компании Open Data Science, градиентный бустинг, гуси, математика, машинное обучение, мясорубка

Открытый курс машинного обучения. Тема 10. Градиентный бустинг. Часть 1 - 1

Всем привет! Настало время пополнить наш с вами алгоритмический арсенал.

Сегодня мы основательно разберем один из наиболее популярных и применяемых на практике алгоритмов машинного обучения — градиентный бустинг. Наша задача — основательно разобраться в бустинге, поэтому статья разбита на 2 части: сегодня мы разберем основную теорию алгоритма, а через 2 недели — практику.

О том, откуда у бустинга растут корни и что на самом деле творится под капотом алгоритма — в нашем красочном путешествии в мир бустинга под катом. Рванули!

Читать полностью »

Спортивный анализ данных, или как стать специалистом по data science

2017-04-26 в 14:05, admin, рубрики: adam, big data, black box, data mining, data science, ImageNet, inceptionV3, kaggle, mxnet, Q-learning, resnet, xgboost, аугментация данных, блендинг, Блог компании Яндекс, валидация, классификация, конкурсы разработчиков, контест, машинное обучение, нейронные сети, распознавание изображений, Спортивное программирование, стекинг, тренировки, черный ящик

Меня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.

Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.

Спортивный анализ данных, или как стать специалистом по data science - 1

Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.

Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?

Читать полностью »

GoTo Data Science Challenge 2: гранты на летнюю школу

2017-04-24 в 10:17, admin, рубрики: kaggle, python, анализ данных, Блог компании Школа GoTo, грант, конкурс, летняя школа, машинное обучение, обучение, Программирование, проектный подход, Промышленное программирование, студенты, хакатон, школьники

Мы анонсируем конкурс для получения грантов в рамках направления по анализу данных и машинному обучению летних школ GoTo. К участию приглашаем школьников и младшекурсников. В качестве задания предлагается kaggle-соревнование от Quora, в котором необходимо построить модель для определения вопросов-дубликатов.

Под катом описание условий задачи, ссылки на полезные материалы и пример простого решения.

Читать полностью »

Kaggle: Британские спутниковые снимки. Как мы взяли третье место

2017-04-07 в 11:00, admin, рубрики: deep learning, image segmentation, kaggle, machine learning, ods, open data science, python, Алгоритмы, Блог компании Open Data Science, глубокое обучение, машинное обучение, нейронные сети, обработка изображений

Сразу оговорюсь, что данный текст — это не сухая выжимка основных идей с красивыми графиками и обилием технических терминов (такой текст называется научной статьей и я его обязательно напишу, но потом, когда нам заплатят призовые $20000, а то, не дай бог, начнутся разговоры про лицензию, авторские права и прочее). К моему сожалению, пока устаканиваются все детали, мы не можем поделиться кодом, который написали под эту задачу, так как хотим получить деньги. Как всё утрясётся — обязательно займемся этим вопросом.

Так вот, данный текст — это скорее байки по мотивам, в которых, с одной стороны, всё — правда, а с другой, обилие лирических отступлений и прочей отсебятины не позволяет рассматривать его как что-то наукоемкое, а скорее просто как полезное и увлекательное чтиво, цель которого показать, как может происходить процесс работы над задачами в дисциплине соревновательного машинного обучения. Кроме того, в тексте достаточно много лексикона, который специфичен для Kaggle и что-то я буду по ходу объяснять, а что-то оставлю так, например, вопрос про гусей раскрыт не будет.
Читать полностью »

Второе почетное. Заметки участника конкурса Dstl Satellite Imagery Feature Detection

2017-04-04 в 12:02, admin, рубрики: cnn, kaggle, Алгоритмы, Анализ и проектирование систем, Блог компании Avito, картография, Компьютерное зрение, конкурс, машинное обучение, нейросети, обработка изображений, обучение нейронных сетей

Второе почетное. Заметки участника конкурса Dstl Satellite Imagery Feature Detection - 1

Недавно закончилось соревнование по машинному обучению Dstl Satellite Imagery Feature Detection в котором приняло участие аж трое сотрудников Avito. Я хочу поделиться опытом участия от своего лица и рассказать о решении.
Читать полностью »

Школа данных: Москва, Питер… онлайн

2017-04-03 в 22:10, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, машинное обучение, рекомендательные системы, школа данных

Школа данных: Москва, Питер… онлайн - 1
Привет,

Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…

Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.

Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.
Читать полностью »

No free lunch. Введение в участие в соревнованиях по анализу данных на платформе Kaggle

2017-03-14 в 16:46, admin, рубрики: click prediction, data science, kaggle, machine learning, машинное обучение

Цель статьи — познакомить широкую аудиторию с соревнованиями по анализу данных на Kaggle. Я расскажу о своем подходе к участию на примере Outbrain click prediction соревнования, в котором я принимал участие и занял 4ое место из 979 команд, закончив первым из выступающих в одиночку.
Для понимания материала желательны знания о машинном обучении, но не обязательны.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «kaggle» - 6

«Айсберг вместо Оскара!» или как я пробовал освоить азы DataScience на kaggle

«Теперь он и тебя сосчитал» или Наука о данных с нуля (Data Science from Scratch)

Расчет оттока клиентов банка (решение задачи с помощью Python)

Открытый курс машинного обучения. Тема 10. Градиентный бустинг. Часть 1

Спортивный анализ данных, или как стать специалистом по data science

GoTo Data Science Challenge 2: гранты на летнюю школу

Kaggle: Британские спутниковые снимки. Как мы взяли третье место

Второе почетное. Заметки участника конкурса Dstl Satellite Imagery Feature Detection

Школа данных: Москва, Питер… онлайн

No free lunch. Введение в участие в соревнованиях по анализу данных на платформе Kaggle