Рубрика «машинное обучение» - 253

imageВ этой статье, переведенной командой процессинговой компании PayOnline, подробно описаны примеры интеграции инструментов голосового управления онлайн-покупками крупнейшими технологическими корпорациями США.

Google, Apple и Amazon сделали крупную ставку на голосовое управление как на движущую силу электронной коммерции будущего. Каждая из этих компаний уже выложила немало денег и приготовила крутые новые технологии для этого направления. Но эксперт Карен Уэбстер считает, что в назревающем коммерческом сражении победит не тот, кто больше всего раскошелится или предложит самые крутые девайсы. Победителем из этой схватки, вероятно, выйдет тот, кому удастся понять, как потребители на самом деле ищут нужные товары. По ее словам, все чаще это происходит не с помощью приложений из App Store или Google Play и даже не через строку поиска.
Читать полностью »

Представляем вам перевод серии статей посвященных глубокому обучению. В первой части описан выбор фреймворка с отрытым кодом для символьного глубокого обучения, между MXNET, TensorFlow, Theano. Автор подробно сравнивает преимущества и недостатки каждого из них. В следующих частях вы узнаете о тонкой настройке глубоких сверточных сетей, а также о сочетании глубокой сверточной нейронной сети с рекуррентной нейронной сетью.

Deep Learning: Сравнение фреймворков для символьного глубокого обучения - 1
Читать полностью »

Нужно построить больше GPU
GPU в облаках - 1

Deep Learning – одно из наиболее интенсивно развивающихся направлений в области машинного обучения.

Успехи исследований в области глубокого (глубинного) обучения вызывают за собой рост количества ML/DL-фреймворков (в т.ч. и от Google, Microsoft, Facebook), имплементирующих данные алгоритмы. За все возрастающей вычислительной сложностью DL-алгоритмов, и, как следствие, за увеличивающейся сложностью DL-фреймворков уже давно не угоняются аппаратные мощности ни настольных, ни даже серверных CPUs.

Выход нашли, и он простой (кажется таким) – использовать для такого типа compute-intensive-задач расчеты на GPU/FPGA. Но и тут проблема: можно, конечно, для этих целей использовать видеокарту любимого ноутбука, но какой русский data scientist не любит быстрой езды NVidia Tesla?

Подходов к владению высокопроизводительными GPU минимум два: купить (on-premises) и арендовать (on-demand). Как накопить и купить – тема не этой статьи. В этой — мы рассмотрим, какие предложения есть по аренде инстансов VM c высокопроизводительными GPU у облачных провайдеров Amazon Web Service и Windows Azure.

Читать полностью »

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.

Кластерный анализ или кластеризация — задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника статистического анализа, применяемая в разных сферах, в т.ч. машинном обучении, распознавании образов, анализе изображений, поиске информации, биоинформатике, сжатии данных, компьютерной графике.

Наиболее известные примеры алгоритмов кластеризации — кластеризация на основе связности (иерархическая кластеризация), кластеризация на основе центров (метод k-средних, метод k-медоидов), кластеризация на основе распределений (GMM — Gaussian mixture models — Гауссова смесь распределений) и кластеризация на основе плотности (DBSCAN — Density-based spatial clustering of applications with noise — пространственная кластеризация приложений с шумом на основе плотности, OPTICS — Ordering points to identify the clustering structure — упорядочивание точек для определения структуры кластеризации, и др.).

В первой части: гауссова смесь распределений (GMM), метод k-средних, метод k-средних в мини-группах.
Читать полностью »

Можем ли мы вскрыть чёрный ящик искусственного интеллекта? - 1

Дин Помело [Dean Pomerleau] всё ещё помнит, как ему впервые пришлось столкнуться с проблемой «чёрного ящика». В 1991 году он делал одну из первых попыток в той области, которая сейчас изучается всеми, кто пытается создать робомобиль: обучение компьютера вождению.

А это означало, что нужно сесть за руль специально подготовленного Хамви (армейского вседорожника), и покататься по улицам города. Так рассказывает об этом Помело, в ту пору бывший аспирантом по робототехнике в Университете Карнеги-Меллон. Вместе с ним катался и компьютер, запрограммированный следить через камеру, интерпретировать происходящее на дороге и запоминать все движения водителя. Помело надеялся, что машина в итоге построит достаточно ассоциаций для самостоятельного вождения.

За каждую поездку Помело тренировал систему несколько минут, а затем давал ей порулить самостоятельно. Всё вроде бы шло хорошо – пока однажды Хамви, подъехав к мосту, не повернул внезапно в сторону. Человеку удалось избежать аварии, только быстро схватив руль и вернув управление.
Читать полностью »

Привет! Летом мы подводили внутри итоги прошлого IT-сезона и строили планы на новый год (в Microsoft финансовый год начинается с 1 июля). Одна из таких дискуссий велась вокруг работы с сообществами разработчиков и, в частности, подходов к организации наших собственных конференций.

Школа DevCon: Технологии будущего, 1 ноября (Москва) - 1

По результатам обсуждения мы приняли для себя непростое и, уверен, своевременное решение поменять наш подход к мероприятиям и, особенно, их формату.

Читать полностью »

Год назад Google сваял платформу Cloud Vision API‎. Идея платформы — предоставить технологии Computer Vision, в которых Google является безусловным лидером, как сервис. Пару лет назад под каждую задачу существовала своя технология. Нельзя было взять что-то общее и добиться, чтобы алгоритм решал всё. Но Google замахнулся. Вот, прошёл уже год. А технология всё так же не на слуху. На хабре одна статья. Да и та ещё не про Cloud Vision api, а про Face api, которое было предшественником. Англоязычный интернет тоже не пестрит статьями. Разве что от самого Google. Это провал?
Google Cloud Vision API‎. Будущее Computer Vision as a service настало? - 1
Мне было интересно посмотреть что это такое ещё весной. Но сил полноценно посидеть не хватало. Изредка что-то отдельное тестировал. Периодически приходили заказчики и спрашивали, почему нельзя применить Cloud Api. Приходилось отвечать. Или наоборот, отсылать с порога в этом направлении. И внезапно понял, что материала на статью уже достаточно. Поехали.
Читать полностью »

word cloud
Тематическое моделирование — подраздел машинного обучения, посвященный извлечению абстрактных «тем» из набора «документов». Каждый «документ» представлен мешком слов, т.е. множеством слов вместе с их частотами. Введение в тематическое моделирование прекрасно описано проф. К. В. Воронцовым в лекциях ШАД [PDF]. Самая известная модель ТМ — это, конечно, Латентное размещение Дирихле (LDA). Константину Вячеславовичу удалось обобщить все возможные тематические модели на основе мешка слов в виде аддитивной регуляризации (ARTM). В частности, LDA тоже входит в множество моделей ARTM. Идеи ARTM воплощены в проекте BigARTM.

Обычно тематическое моделирование применяют к текстовым документам. Мы в source{d} (стартап в Испании) перевариваем биг дату, полученную из GitHub репозиториев (и скоро примемся за каждый публично доступный репозиторий в мире). Естественным образом возникла идея интерпретировать каждый репозиторий как мешок слов и натравить BigARTM. В этой статье пойдет речь о том как мы выполнили по сути первое в мире тематическое исследование крупнейшего хранилища open source проектов, что из этого получилось и как это повторить. docker inside!
Читать полностью »

Вчера я опубликовал статью про машинное обучение и NVIDIA DIGITS. Как и обещал, сегодняшняя статья — почему всё не так уж и хорошо + пример выделения объектов в кадре на DIGITS.

NVIDIA подняла волну пиара по поводу разработанной и имплиментированной в DIGITS сетки DetectNet. Сетка позиционируется как решение для поиска одинаковых/похожих объектов на изображении.

Почему супер-мега-про машинного обучения за 15 минут всё же не стать - 1
Читать полностью »

image
Недавно на Хабре проскакивал пост vfdev-5 о DIGITS. Давайте поподробнее разберёмся что это такое и с чём его едят. Если в двух словах. Это среда, которая позволяет решить 30-50% задачек машинного обучения на коленке в течении 5 минут. Без умения программировать. Ну, при наличии базы, конечно. И более-менее адекватной карточки от NVIDIA.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js