Рубрика «data mining» - 19

Хабр, привет.

Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта. Всем приятного чтения!

1. Проекты искусственного интеллекта, с которыми можно поиграться уже сегодня. Что вы знаете про искусственный интеллект и машинное обучение? Современный тренд или потенциально мощная сила, способная убивать людей? Эти модные понятия всё чаще на слуху, но далеко не все знают, что же это на самом деле. Пришло время изучить эти технологии с помощью простого и интересного подхода — попробовать искусственный интеллект и нейросети самостоятельно на практике.

image

Подробнее

2. Изучение ИИ, если ты ничего не понимаешь в математике. Может быть, вы хотели бы копать глубже и запустить программу распознавания изображений в TensorFlow или Theano? Возможно, вы офигительный разработчик или системный архитектор и вы очень хорошо знаете компьютеры, но есть только одна маленькая проблема: Вы не понимаете в математике.

image

Подробнее

3. Как построить систему модерации сообщений. Системы автоматической модерации обычно встроены в веб-сервисы и приложения, где должно обрабатываться большое количество пользовательских сообщений. Такие системы могут снизить затраты на ручную модерацию и ускорить модерацию, обрабатывая все пользовательские сообщения в режиме реального времени. В этой статье будет обсуждаться разработка системы автоматической модерации с использованием алгоритмов машинного обучения.

image

Подробнее Читать полностью »

Хабр, привет.

Отфильтровав большое количество источников и подписок — собрал для вас все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июнь. Всем приятного чтения!

1. Команда исследователей из Карнеги-Меллона сделала прорыв в области неинвазивного управления роботизированными устройствами.

Используя неинвазивный интерфейс мозг-компьютер, они разработали первую в мире успешную роботизированную руку, которая управляется с помощью мыслей и без хирургического (!) вмешательства. Технология продемонстрировала способность непрерывно отслеживать и следовать за курсором компьютера.

image

Читать подробнее

2. Facebook AI опубликовали работу, в которой проверяли нейросети на способность следовать принципу взаимной исключительности при принятии решений. И выяснили, чем отличается процесс принятия решений у нейросети и ребенка.

image

Читать подробнее

3. Waymo публикует данные для обучения автопилотных автомобилей. Данные включают в себя 3,000 видеозаписей вождения, которые в сумме длятся 16.7 часов, 600,000 фреймов, около 25 миллионов 3D границ объектов и 22 миллионов 2D границ объектов. Сенсоры на автомобилях, которые собирали данные, включали в себя 5 LiDARs, 5 камер и радары, количество которых не разглашается. Компания заявила, что им удалось точнее синхронизировать LiDAR и записи камер, чем в открытых данных (KITTI, NuScenes).

image

Читать подробнееЧитать полностью »

Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.

Читать полностью »

Привет.

Создать такую нейронную сеть — просто.

Минута первая: введение

Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно создать нейронную сеть, необходимо:

  • Установленный Python;
  • Как минимум начальный уровень программирования;
  • Пять минут свободного времени.

Мы пропустим много деталей работы нейронной сети, не будем углубляться в теоретическую часть, а сфокусируемся на предсказании рака за 5 минут.

image

Для построения предсказаний будем использовать имплементацию нейронной сети из библиотеки scikit-learn. Сами же предсказания будут основаны на данных из датасета Калифорнийского университета в Ирвайн “Breast Cancer Wisconsin” (рак груди, Висконсин). На вход нейронной сети подаются свойства клеточных ядер новообразования (например, строение), а на выходе мы получаем предсказание: злокачественное или доброкачественное новообразование.Читать полностью »

Привет! Представляю вашему вниманию перевод статьи «Image Similarity using Deep Ranking» автора Akarsh Zingade.

Алгоритм Deep Ranking

Понятия "сходства двух изображений" — введено не было, поэтому давайте введем данное понятие хотя бы в рамках статьи.

Сходство двух изображений — это результат сравнения двух изображений по определенным критериям. Его количественная мера определяет степень сходства между диаграммами интенсивности двух изображений. С помощью меры сходства сравниваются какие-то признаки, описывающие изображения. В качестве меры сходства обычно применяется: расстояние Хемминга, евклидово расстояние, расстояние Манхэттена и т. д.
Читать полностью »

Привет. Я data-аналитик отдела маркетинга Wrike: занимаюсь сбором и анализом всех рекламных данных, моделированием LTV и другими техническими задачами, помогающими команде делать самую эффективную рекламу во всех источниках. Недавно я столкнулся с проблемой настройки сбора данных на AMP-страницах и обнаружил совсем мало информации по теме, поэтому решил рассказать вам, как справиться с этой задачей.

Как настроить веб-аналитику на AMP страницах - 1
Читать полностью »

Армия троллей - 1

Есть тролли обыкновенные. Они развлекаются в комментариях к новостям и статьям, развлекают народ и обогащают эмоциями дискуссии, чаще милые и безобидные. Они сами по себе и действуют в своих интересах. А есть другие, которые выступают под флагами неведомых сил, их влечет блеск золота, они беспощадны и готовы крушить все на своем пути. Их целое полчище… стихия, управляемая чужими интересами.

Платный троллинг (вики)

Платный троллинг — действия организованных групп интернет-пользователей, за денежное вознаграждение занимающихся формированием общественного мнения в определённом направлении и манипуляциями общественным мнением в Интернете. Используются обычно в политических целях, зачастую правительствами, и имеют разные названия в зависимости от страны или организации, которую представляют

Далее речь пойдет о троллях, действующих в чужих интересах, и чаще всего в интересах государств. Их цель — пустить пыль в глаза и сформировать ложное общественное мнение на острые события. Такой троллинг развивается во многих странах. В статье Bloomberg Россию называют мастером спорта в этом деле, ключевым экспортером данной тактики и родиной троллинга.

Под катом особенности российских троллей и их цифровой след на платформе Twitter
Читать полностью »

Привет! Лето — жаркое. Организаторы «айтишных» чемпионатов много сидели на солнце, сгорели и схватили удар, но главное — собрали новую задачу для очередного (уже девятого) контеста на платформе ML Boot Camp. Чемпионат пройдёт онлайн в течение месяца.

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников - 1

Сейчас на платформе зарегистрировано более 10 тысяч специалистов. Часто бывает, что задачи, которые на ней появляются, не всем по зубам (богам Kaggle в том числе). Для чего мы это делаем? Нужно развиваться и пробовать, причем на реальных данных, а не синтетическом булшите. Победы придут со временем.

Задача, которую хотим предложить вам решить в этом соревновании, отличается от всех предыдущих. Тема задачи — это детектирование объектов на изображениях. Формулировка задачи подразумевает, что в наборе данных будут картинки, но, что забавно, их нет. И это не петабайты данных. И даже не гигабайты.
Читать полностью »

Заголовок статьи может показаться странным и это неспроста — он прекрасен именно тем, что написал его не я, а LSTM-нейросеть (а точнее его часть перед "или").

Как мы создали систему оповещения о ядерной угрозе, или как я обучил нейросеть на заголовках Хабра - 1

(схема LSTM взята из Understanding LSTM Networks)

И сегодня мы разберёмся, как можно генерировать заголовки статей Хабра (и в принципе сам текст можно генерировать этой же нейро-архитектурой). Весь код доступен для запуска онлайн в notebooks от Гугла. Данные, как всегда, открыты на github.

А вот здесь можно запустить уже обученную модель на GPU от Гугла (бесплатно и без смс) и собственно погенерить заголовки.

Читать полностью »

Хабр, привет.

Сегодня у нас пост с интересным заданием — будем обучать логистическую регрессию с L1 и L2 регуляризациями с помощью метода Stochastic Gradient Descent (SGD).

image

Перед тем как приступить к статье и коду, беглым шагом пробежимся по основным понятиям L1 и L2 регуляризации, логистической регрессии и стахостического градиентного спуска (Stochastic Gradient Descent — SGD).Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js