Рубрика «машинное обучение»

Во всех современных системах модерации используется либо краудсорсинг, либо уже ставшее классикой машинное обучение. На очередной тренировке по ML в Яндексе Константин Котик, Игорь Галицкий и Алексей Носков рассказали о своём участии в конкурсе по массовому выявлению оскорбительных комментариев. Конкурс проходил на платформе Kaggle.

— Всем привет! Меня зовут Константин Котик, я data scientist в компании «Кнопка жизни», студент физфака и Высшей школы бизнеса МГУ.
Читать полностью »

Недавно на Kaggle закончилось соревнование iMaterialist Challenge (Furniture), задачей в котором было классифицировать изображения на 128 видов мебели и предметов быта (так называемая fine-grained classification, где классы очень близки друг к другу).

В этой статье я опишу подход, который принес нам с m0rtido третье место, но прежде, чем переходить к сути, предлагаю воспользоваться для решения этой задачи естественной нейросетью в голове и разделить стулья на фото ниже на три класса.

iMaterialist Furniture Challenge или 50 оттенков стульев - 1
Читать полностью »

На датафесте 2 в Минске Владимир Игловиков, инженер по машинному зрению в Lyft, совершенно замечательно объяснил, что лучший способ научиться Data Science — это участвовать в соревнованиях, запускать чужие решения, комбинировать их, добиваться результата и показывать свою работу. Собственно в рамках этой парадигмы я и решил посмотреть внимательнее на соревнование по оценке кредитного риска от Home Credit и объяснить (начинающим дата саентистам и прежде всего самому себе), как правильно анализировать подобные датасеты и строить под них модели.

Соревнование Kaggle Home Credit Default Risk — анализ данных и простые предсказательные модели - 1
Читать полностью »

Привет. Сегодня я бы хотел развить тему вариационной оптимизации и рассказать, как применить её к задаче обрезки малоинформативных каналов в нейронных сетях (pruning). При помощи неё можно сравнительно просто увеличить «скорострельность» нейронной сети, не перелопачивая её архитектуру.

Редукция нейронных сетей при помощи вариационной оптимизации - 1

Читать полностью »

После прочтения статьи "Нейронный машинный перевод Google" вспомнился курсирующий последнее время в интернет очередной epic-fail машинного перевода от Google. Кому сильно не терпится сразу мотаем в низ статьи.

Ну а для начала немного теории:

GNMT есть система нейронного машинного перевода (NMT) компании Google, которая использует нейросеть (ANN) для повышения точности и скорости перевода, и в частности для создания лучших, более естественных вариантов перевода текста в Google Translate.

В случае GNMT речь идет о так называемом методе перевода на основе примеров (EBMT), т.е. ANN, лежащая в основе метода, обучается на миллионах примеров перевода, причем в отличии от других систем этот метод позволяет выполнять так называемый zero-shot перевод, т. е. переводить с одного языка на другой, не имея явные примеры для этой пары конкретных языков в процессе обучения (в обучающей выборке).

Image 1. Zero-Shot Translation
Рис. 1. Zero-Shot Translation
Читать полностью »

Введение

Я хочу представить вам результат своих экспериментов с алгоритмами распознавания образов с обучением с первого раза (так называемый One-Shot Learning). В результате экспериментов выработались определённые подходы к структуризации изображения и в итоге они воплотились в несколько взаимосвязанных алгоритмов и тестовое приложение на Android, которым можно проверить качество и работоспособность алгоритмов.

Моя цель была создать алгоритм с понятным принципом работы который может найти абстрактные зависимости в картинке с первого раза (обучиться) и показать приемлемое качество распознавания (поиска подобных абстрактных зависимостей) на последующих циклах распознавания. При этом логика принятия решения должна быть прозрачной, поддающейся анализу, ближе к линейному алгоритму. На условной шкале где на одном конце мозг а на другом станок с ЧПУ он гораздо ближе к станку чем нейросети.

Читать полностью »

Всем привет. Это моя юбилейная статья на хабре. За почти 7 лет я написал 10 статей (включая эту), 8 из них — технические. Общее количество просмотров всех статей — около полумиллиона.
Основной вклад я внёс в два хаба: PHP и Серверное администрирование. Мне нравится работать на стыке этих двух областей, но сфера моих интересов гораздо шире.
Как и многие разработчики я часто пользуюсь результатами чужого труда (статьи на хабре, код на гитхабе, ...), поэтому я всегда рад делиться с сообществом своими результатами в ответ. Написание статей — это не только возврат долга сообществу, но так же позваляет найти единомышленников, получить комментарии от профессионалов в узкой сфере и ещё больше углубить свои знания в исследуемой области.

Собственно эта статья об одном из таких моментов. В ней я опишу чем занимался почти всё своё свободное время за последние полгода. Кроме тех моментов, когда я ходил купаться в море через дорогу, смотрел сериалы или игрался в игры.

Компьютерное зрение и машинное обучение в PHP используя библиотеку opencv - 1
Читать полностью »

IGNG — инкрементальный алгоритм растущего нейронного газа - 1

При написании статьи о разработке детектора аномалий я реализовывал один из алгоритмов, который называется "Инкрементальный растущий нейронный газ".
В советской литературе российском сегменте Интернета эта тема освещена достаточно слабо, и нашлась только одна статья, да и то с прикладным применением данного алгоритма.

Итак, что же такое — алгоритм инкрементального растущего нейронного газа?

Читать полностью »

Отчет написан в декабре 2017.

It's not who has the best algorithm that wins. It's who has the most data. Побеждает не тот, у кого лучше алгоритм, а тот, у кого больше данных. Эндрю Нг, преподаватель курса по машинному обучению на Coursera.

If you scale up both the size of the model and the amount of data you train it with, you can learn finer distinctions or more complex features. …These models can typically take a lot more context. Jeff Dean, an engineer helping lead the research at Google. Если увеличить размер модели и дать ей больше данных для обучения, она начнет различать более тонкие и сложные особенности. …Эти модели обычно воспринимают более широкий контекст. Джеф Дин, инженер, помогающий в управлении исследованиями в Google.

Я тестировала Google Translate на одних и тех же текстах в марте и декабре 2011, январе 2016 и декабре 2017 года. Брала одни и те же отрывки на английском, русском, немецком, французском, украинском и польском языках и переводила каждый на остальные пять языков из выборки. Кроме того, в декабре 2017 дополнительно взяла новые тексты и протестировала во всех направлениях перевода. Результаты cross-verification в целом совпали с тенденциями в первоначальной выборке. В итоге получился срез работы переводчика Google за 2011 — 2017 годы, и на основе этих материалов можно сделать выводы об эволюции сервиса и прокомментировать маркетинговые заявления компании (цитаты планируется опубликовать отдельно).Читать полностью »

Педагогика интересовала меня очень давно и, много лет, я, будучи студентом, воспитанный, но в то же время изведенный и задерганный существующей организацией обучения думал о том, как бы её улучшить. В последнее время мне все чаще предоставляется случай проверить какие-нибудь из идей на практике. В частности, этой весной мне в политехе (СПБПУ) предоставилась возможность прочитать курс “Обработка сигналов”. Его организация, в особенности организация отчетности — первый эксперимент, результаты которого мне кажутся сколько-нибудь удачными, и в этой статье я хочу про организацию этого курса рассказать.

Читать полностью »