Рубрика «машинное обучение» - 202

Предсказываем будущее с помощью библиотеки Facebook Prophet - 1

Прогнозирование временных рядов — это достаточно популярная аналитическая задача. Прогнозы используются, например, для понимания, сколько серверов понадобится online-сервису через год, каков будет спрос на каждый товар в гипермаркете, или для постановки целей и оценки работы команды (для этого можно построить baseline прогноз и сравнить фактическое значение с прогнозируемым).

Существует большое количество различных подходов для прогнозирования временных рядов, такие как ARIMA, ARCH, регрессионные модели, нейронные сети и т.д.

Сегодня же мы познакомимся с библиотекой для прогнозирования временных рядов Facebook Prophet (в переводе с английского, "пророк", выпущена в open-source 23-го февраля 2017 года), а также попробуем в жизненной задаче – прогнозировании числа постов на Хабрехабре.

Читать полностью »

Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных, то здесь сравниваемыми составляющими служат последовательности слов и их атрибутов (например, вес слова в тексте, тип именованной сущности, тональность и пр.). Таким образом, тексты изначально преобразуются в вектора, с которыми производят разного типа манипуляции. При этом, как правило, возникает ряд проблем, связанных с: выбором первичных кластеров, зависимостью качества кластеризации от длины текста, определением общего количества кластеров и т.п. Но наиболее сложной проблемой является отсутствие связи между близкими по смыслу текстами, в которых используется разная лексика. В таких случаях объединение должно происходить не только на основе сходства, а еще и на основе семантической смежности или ассоциативности.
Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма) - 1
Читать полностью »

Отучившись на нескольких онлайн-курсах, попробовал занять позицию, связанную с Machine Learning — на входе получил тестовое задание о кредитном скоринге. Свое решение которой здесь и привожу:

Задание

Данные содержат информацию о выданных кредитах, требуется предсказать вероятность успешного возврата кредита.

Тренировочная выборка содержится в файле train.csv, тестовая — test.csv.

Информация о значениях признаков содержится в файле feature_descr.xlsx.

Целевой признак — loan_status (бинарный). 1 означает что кредит успешно вернули.

В рамках тестового задания вам предлагается:

  • Обучить модель на предоставленных данных, найти качество полученной модели.
  • Записать предсказания (вероятности) для тестового набора в файл results.csv
  • Продемонстрировать результаты анализа в графическом виде (ROC-curve)

Тщательный выбор фич и подбор гиперпараметров можно не проводить.

Читать полностью »

Недавно завершился контест по машинному обучению ML Boot Camp III от Mail.Ru.

Будучи новичком в machine learning мне удалось занять 3-е место. И в этой статье я постараюсь поделиться своим опытом участия.

История 3-го места на ML Boot Camp III - 1

Читать полностью »

Власть народу: как использовать ИИ для решения человеческих проблем - 1

Впечатляющие результаты ряда исследований, проведённые в последние годы, привлекли внимание мирового сообщества к теме машинного обучения. Со времён «зимы искусственного интеллекта» мы ещё никогда не были так воодушевлены возможностями этой технологии. Но несмотря на всплеск интереса, ряд ученых считают, что многие из нас уделяют слишком много внимания не тем исследованиям. За всей этой шумихой практически незаметной осталась небольшая группа исследователей, которые втихую закладывают фундамент для дальнейшего использования машинного обучения, которое позволит решить многие проблемы человечества.Читать полностью »

image

На прошлой неделе прошла встреча кейс-клуба Data Science, на которой специалисты Avito рассказали о том, какие бизнес-задачи сервиса решаются с помощью машинного обучения. В частности поговорили про рекомендации, контекстную рекламу и модерацию. Под катом больше подробностей о встрече и видеозаписи докладов.

Читать полностью »

Этой весной наша проектная школа в очередной раз состоится в новом месте. На это раз, мы едем в Иннополис – изучать новый город и университет, о котором пока только наслышаны. До школы мы планируем умудриться провести методический интенсив для преподавателей на основе проекта по интернету вещей и митап по информационной безопасности.

image
#ужевыехали
Читать полностью »

Разработка R&D-проектов продолжается: запуск Wolfram Language 11.1 - 1

Перевод поста Стивена Вольфрама (Stephen Wolfram) "The R&D Pipeline Continues: Launching Version 11.1".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации


Содержание

Небольшой релиз — тоже неплохо
Визуальные изменения
Множество новых функций
Нейросети
Машинное обучение
Аудио
Изображения и визуализация
Больше данных
Интегрированные внешние сервисы
Больше математики, больше алгоритмов
Детализация дат
Настройка языка
Язык хранения
Программирование на низком уровне
Укрепление инфраструктуры
И еще кое-что


Небольшой релиз — тоже неплохо

Я рад сообщить о том, что сегодня вышла версия 11.1 языка Wolfram Language (и системы Wolfram Mathematica). На данный момент, версия 11.1 уже работает в Wolfram Cloud, а Desktop-версии уже доступны для загрузки для Mac, Windows и Linux.

Что нового в версии 11.1? На самом деле много чего. Если кратко:

Разработка R&D-проектов продолжается: запуск Wolfram Language 11.1 - 2

В ней очень много нового. Можно подумать, что релиз .1 спустя почти 29 лет после выхода версии 1.0 вряд ли удивит. Однако в случае с нашей компанией дела обстоят иначе. С тех пор, как мы построили весь стек доступных сейчас технологий, мы лишь ускоряемся в своем развитии. И теперь даже в версии 11.1 представлено множество новых функциональных возможностей.
Читать полностью »

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии - 1

Всем привет!

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных.
Ключевое отличие нашей подачи материала от аналогичного в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример двух таких задач – это соревнования Kaggle Inclass по прогнозированию популярности статьи на Хабре и по идентификации взломщика в Интернете по его последовательности переходов по сайтам. Домашним заданием №4 будет применение линейных моделей в этих задачах.

А пока еще можно сделать простое 3 задание – до 23:59 20 марта.
Все материалы доступны на GitHub.

Читать полностью »

Сегодня предлагаю поразмышлять о том, как искать паттерны в биржевых данных и как их использовать для успешной торговли.
Будем получать биржевые данные Forex от одного из брокеров, сохраним в базу данных PostgreSQL и попробуем найти закономерности при помощи алгоритмов машинного обучения.
В статье есть несколько приятных бонусов в виде кода на Python — Вы сможете сами проанализировать любые (почти) биржевые данные (или значения индикаторов), запустить собственного торгового робота и проверить любую торговую стратегию.
Все условия и определения паттернов в статье приведены для примера, вы можете использовать любые критерии.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js