Рубрика «machine learning» - 50

Как мы делали ML Boot Camp III

2017-04-19 в 14:30, admin, рубрики: big data, data mining, machine learning, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение

19 марта закончился третий чемпионат по машинному обучению на платформе ML Boot Camp. 614 человек прислали решения и поборолись за главный приз ー MacBook Air. Для нас это важный проект: мы хотим расширить сообщество ML-специалистов России. Поэтому в наших задачах сможет разобраться даже новичок. Теоретически… Профи же соревнуются благодаря сложности метрик и большому ряду параметров задачи.

Со второго контеста многое изменилось. Мы увеличили количество участников вдвое, прикрутили к серверу новую метрику, пофиксили баги и создали ML-комьюнити в Телеграме. Рассказываем, как проводили третий контест.

Читать полностью »

Алгоритм Джонкера-Волгенанта + t-SNE = супер-сила

2017-04-19 в 13:43, admin, рубрики: embedding, machine learning, t-sne, wunder fund, wunderfund, Алгоритмы, Блог компании Wunder Fund, машинное обучение

До:

Алгоритм Джонкера-Волгенанта + t-SNE=супер-сила - 1

После:

Алгоритм Джонкера-Волгенанта + t-SNE=супер-сила - 2

Заинтригованы? Но обо всем по порядку.

t-SNE

t-SNE — это очень популярный алгоритм, который позволяет снижать размерность ваших данных, чтобы их было проще визуализировать. Этот алгоритм может свернуть сотни измерений к всего двум, сохраняя при этом важные отношения между данными: чем ближе объекты располагаются в исходном пространстве, тем меньше расстояние между этими объектами в пространстве сокращенной размерности. t-SNE неплохо работает на маленьких и средних реальных наборах данных и не требует большого количества настроек гиперпараметров. Другими словами, если взять 100 000 точек и пропустить их через эту волшебный черный ящик, на выходе мы получим красивый график рассеяния.
Читать полностью »

International Space Apps Challenge: хакатон от NASA

2017-04-18 в 15:06, admin, рубрики: big data, big data analytics, machine learning, microsoft, Блог компании Microsoft, машинное обучение

Мы не так часто рассказываем здесь про мероприятия, но про это было сложно промолчать. Если вы фанатеете от космоса и NASA, хотите защитить нашу планету и её жителей, любите работать с данными и совершать новые открытия на их основе, вам точно захочется поучаствовать в International Space Apps Challenge. По катом вы узнаете про 5 основных задач, которые вам предстоит решить.

International Space Apps Challenge: хакатон от NASA - 1
Читать полностью »

Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit

2017-04-17 в 11:02, admin, рубрики: data mining, machine learning, mlcourse_open, ods, open data science, python, sgd, vowpal wabbit, Алгоритмы, Блог компании Open Data Science, машинное обучение

Всем привет!

Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit - 1

Вот мы постепенно и дошли до продвинутых методов машинного обучения, сегодня обсудим, как вообще подступиться к обучению модели, если данных гигабайты и десятки гигабайт. Обсудим приемы, позволяющие это делать: стохастический градиентный спуск (SGD) и хэширование признаков, посмотрим на примеры применения библиотеки Vowpal Wabbit. Домашнее задание будет как на реализацию SGD-алгоритмов, так и на обучение классификатора вопросов на StackOverflow по выборке в 10 Гб.

Поехали!

Читать полностью »

Data science и качественный код

2017-04-17 в 9:53, admin, рубрики: big data, data mining, data science, machine learning, python, машинное обучение

Обычно модели машинного обучения строят в jupyter-ноутбуках, код которых выглядит, мягко говоря, не очень — длинные простыни из лапши выражений и вызовов "на коленке" написанных функций. Понятно, что такой код почти невозможно поддерживать, поэтому каждый проект переписывается чуть ли не с нуля. А о внедрении этого кода в production даже подумать страшно.

Поэтому сегодня представляем на ваш строгий суд превью библиотеки по работе с датасетами и data science моделями. С ее помощью ваш код может выглядеть так:

my_dataset.
    load('/some/path').
    normalize().
    resize(shape=(256, 256, 256)).
    random_rotate(angle=(-30, 30))
    random_crop(shape=(64, 64, 64))

for i in range(MAX_ITER):
    batch = my_dataset.next_batch(BATCH_SIZE, shuffle=True)
    # обучаем модель, подавая ей батчи с данными

В этой статье вы узнаете об основных классах и методах, которые помогут сделать ваш код простым, понятным и удобным.

Читать полностью »

Библиотека глубокого обучения Tensorflow

2017-04-13 в 11:37, admin, рубрики: deep learning, machine learning, neural networks, ods, open data science, python, TensorFlow, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение

Здравствуй!

Библиотека глубокого обучения Tensorflow - 1

Цикл статей по инструментам для обучения нейронных сетей продолжается обзором популярного фреймворка Tensorflow.

Читать полностью »

Война машин: PVS-Studio vs TensorFlow

2017-04-11 в 16:18, admin, рубрики: c++, Google, machine learning, open source, pvs-studio, static code analysis, TensorFlow, Блог компании PVS-Studio, машинное обучение, Программирование, статический анализ кода

«I'll be back» ©. Думаю, все знают эту фразу. И хотя сегодня мы будем говорить не о возвращении терминатора, тема статьи в некотором роде схожа. Сегодня расскажем о проверке библиотеки машинного обучения TensorFlow и попробуем выяснить, можем ли мы спать спокойно, или час Skynet уже близок…
Читать полностью »

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация

2017-04-10 в 11:01, admin, рубрики: clusterization, data mining, k-means, machine learning, mlcourse_open, ods, open data science, PCA, python, Алгоритмы, Блог компании Open Data Science, машинное обучение

Привет всем! Приглашаем изучить седьмую тему нашего открытого курса машинного обучения!

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация - 1 Данное занятие мы посвятим методам обучения без учителя (unsupervised learning), в частности методу главных компонент (PCA — principal component analysis) и кластеризации. Вы узнаете, зачем снижать размерность в данных, как это делать и какие есть способы группирования схожих наблюдений в данных.Читать полностью »

Surf Studio: машинное обучение в production

2017-04-07 в 13:53, admin, рубрики: Google, Google Cloud Platform, machine learning, python, TensorFlow, Блог компании Google, машинное обучение

Surf Studio: машинное обучение в production - 1
Представляем гостевой пост от компании Surf Studio (Certified Google Developer Developer Agency).

Привет. Меня зовут Александр Ольферук (@olferuk), я занимаюсь машинным обучением в Surf. С 2011 года мы разрабатываем мобильные приложения для крупного бизнеса, а теперь готовим к релизу B2B-продукт с TensorFlow. Спасибо коллегам из Google за возможность рассказать немного о нашем опыте.

В современном машинном обучении много энтузиастов, но критически не хватает профессионалов. В нашей команде я вживую наблюдал превращение таких энтузиастов в специалистов с боевым опытом. Разрабатывая первый для нас коммерческий продукт, связанный с машинным обучением, команда столкнулась с кучей нюансов. Всеми любимые соревнования на Kaggle оказались очень далеки от решения задач реального бизнеса. Сейчас хочу поделиться опытом, показать примеры и рассказать немного о том, через что мы прошли.
Читать полностью »

Kaggle: Британские спутниковые снимки. Как мы взяли третье место

2017-04-07 в 11:00, admin, рубрики: deep learning, image segmentation, kaggle, machine learning, ods, open data science, python, Алгоритмы, Блог компании Open Data Science, глубокое обучение, машинное обучение, нейронные сети, обработка изображений

Сразу оговорюсь, что данный текст — это не сухая выжимка основных идей с красивыми графиками и обилием технических терминов (такой текст называется научной статьей и я его обязательно напишу, но потом, когда нам заплатят призовые $20000, а то, не дай бог, начнутся разговоры про лицензию, авторские права и прочее). К моему сожалению, пока устаканиваются все детали, мы не можем поделиться кодом, который написали под эту задачу, так как хотим получить деньги. Как всё утрясётся — обязательно займемся этим вопросом.

Так вот, данный текст — это скорее байки по мотивам, в которых, с одной стороны, всё — правда, а с другой, обилие лирических отступлений и прочей отсебятины не позволяет рассматривать его как что-то наукоемкое, а скорее просто как полезное и увлекательное чтиво, цель которого показать, как может происходить процесс работы над задачами в дисциплине соревновательного машинного обучения. Кроме того, в тексте достаточно много лексикона, который специфичен для Kaggle и что-то я буду по ходу объяснять, а что-то оставлю так, например, вопрос про гусей раскрыт не будет.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «machine learning» - 50

Как мы делали ML Boot Camp III

Алгоритм Джонкера-Волгенанта + t-SNE = супер-сила

t-SNE

International Space Apps Challenge: хакатон от NASA

Открытый курс машинного обучения. Тема 8. Обучение на гигабайтах с Vowpal Wabbit

Data science и качественный код

Библиотека глубокого обучения Tensorflow

Война машин: PVS-Studio vs TensorFlow

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация

Surf Studio: машинное обучение в production

Kaggle: Британские спутниковые снимки. Как мы взяли третье место