Рубрика «data mining» - 58

Data Science Week 2016. Обзор первого и второго дня

Публикуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.

Читать полностью »

Кластеризация с пакетом ClusterR, часть 1

2016-09-26 в 8:54, admin, рубрики: clustering, data mining, k-means, k-medoids, R, Блог компании Инфопульс Украина, кластеризация, машинное обучение

Эта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.

Кластерный анализ или кластеризация — задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника статистического анализа, применяемая в разных сферах, в т.ч. машинном обучении, распознавании образов, анализе изображений, поиске информации, биоинформатике, сжатии данных, компьютерной графике.

Наиболее известные примеры алгоритмов кластеризации — кластеризация на основе связности (иерархическая кластеризация), кластеризация на основе центров (метод k-средних, метод k-медоидов), кластеризация на основе распределений (GMM — Gaussian mixture models — Гауссова смесь распределений) и кластеризация на основе плотности (DBSCAN — Density-based spatial clustering of applications with noise — пространственная кластеризация приложений с шумом на основе плотности, OPTICS — Ordering points to identify the clustering structure — упорядочивание точек для определения структуры кластеризации, и др.).
Читать полностью »

ANOVA, или кто комментирует?

2016-09-20 в 22:15, admin, рубрики: ANOVA, data mining, Kruskal-Wallis, Mann-Whitney, R, Tukey's HSD, анализ данных, дисперсионный анализ, математика, машинное обучение, статистика, хабрахабр

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать полностью »

Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»

2016-09-15 в 14:40, admin, рубрики: big data, data mining, data science, R

Продолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем»,
«Экосистема R как инструмент для автоматизации бизнес-задач» и Джентельменский набор пакетов R для автоматизации бизнес-задач. Настоящая публикация преследует 2 цели:

Взглянуть на типичные задачи, которые встречаются в бизнесе, под немного другим углом.
Попробовать их решить, частично или полностью, с использованием средств, предоставляемых R.
Читать полностью »

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML

2016-09-13 в 6:48, admin, рубрики: big data, data mining, false positive, Блог компании HeadHunter, машинное обучение, обработка данных, управление требованиями

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML - 1

Я расскажу о практическом примере того, как мы формулировали требования к задаче машинного обучения и выбирали точку на кривой точность/полнота. Разрабатывая систему автоматической модерации контента, мы столкнулись с проблемой выбора компромисса между точностью и полнотой, и решили ее с помощью несложного, но крайне полезного эксперимента по сбору асессорских оценок и вычисления их согласованности.
Читать полностью »

III Международная конференция АI Ukraine, 8-9 октября, Харьков

2016-09-12 в 7:50, admin, рубрики: artificial intelligence, big data, data mining, FlyElephant, АIUkraine, Алгоритмы, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение

Команда FlyElephant приглашает всех c 8 по 9 октября в Харьков на III Международнаю конференцию АI Ukraine, которая посвящена вопросам Data Science, Machine Learning, Big Data и Artificial Intelligence.

На конференции будут рассмотрены темы из различных областей Data Science и Machine Learning:

глубокое обучение нейронных сетей;
компьютерное зрение;
обработка естественного языка;
рекомендательные системы;
использование Machine Learning в биоинформатике;
Big Data инструменты: Hadoop, Spark и др.

Я буду рад видеть всех на нашем стенде, а также на докладе, в котором расскажу об Читать полностью »

Выявление проблем дорожной сети с помощью Яндекс.Пробок. Лекция в Яндексе

2016-09-10 в 15:59, admin, рубрики: data mining, автомобильная навигация, Блог компании Яндекс, Геоинформационные сервисы, городская среда, исследование, исследование данных, машинное обучение, навигационные системы, пробки, пробки на дорогах

Яндекс.Пробки и связанные с ними функции в Навигаторе и Картах работают благодаря данным о скорости машин на разных участках дорог. Это совсем не новая, но по-прежнему эффективная схема. Вопрос, возникший уже по мере развития Пробок — можно ли использовать указанные данные как-нибудь ещё?

Аналитик Карт Леонид Медников рассказал о примере такого использования на конференции Яндекса «Пути Сообщения 2016». Под катом — расшифровка доклада и большинство слайдов.

Читать полностью »

Анализ данных с электросчетчика Eastron SDM220 средствами ThingSpeak

2016-09-09 в 9:40, admin, рубрики: data mining, internet of things, IoT, Matlab, modbus, rs485, SDM220, ThingSpeak, визуализация данных, Разработка для интернета вещей, умный дом, электросчетчик

Всем привет. В статье на geektimes я рассказывал, как подключиться к электросчетчику Eastron SDM220-Modbus и забрать с него данные по шине RS-485. Сегодня я хочу рассказать про сбор и анализ статистических данных о потреблении электричества в доме.

Анализ данных с электросчетчика Eastron SDM220 средствами ThingSpeak - 1
Читать полностью »

Будущее сайтов: автоматическая сборка на базе ИИ и не только

2016-09-08 в 13:47, admin, рубрики: data mining, Grid, smart-технологии, uKit, Анализ и проектирование систем, Блог компании uTeam, машинное обучение, нейронные сети, проблемы программирования, Разработка веб-сайтов, сайты для людей, тренды, умные шаблоны

Наш технический директор* верит, что искусственный интеллект будет создан ориентировочно к середине этого века, и лет через пятьдесят с большой вероятностью будет достигнута около-сингулярность с виртуализацией, ИИ и вот этим всем.

Будущее сайтов: автоматическая сборка на базе ИИ и не только - 1

Но чтобы светлое завтра наступило, уже сегодня нужно решать связанные с ним практические задачи. Так что мы занялись технологией, которая будет делать сайты за людей. Нет, не за специалистов, создающих сложные и высоконагруженные системы. А за ребят с “сайтом-визиткой за 3000” — потому что ИИ, как минимум, не пропадет на месяц после предоплаты.

Прелесть вот в чем: запуск конструктора сайтов с нейросетью и алгоритмическим дизайном** — дело не пятидесяти, а всего пары лет. Это будущее, которое можно пощупать уже сегодня.
Читать полностью »

Джентельменский набор пакетов R для автоматизации бизнес-задач

2016-09-07 в 11:55, admin, рубрики: big data, data mining, data science, R

Продолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции» и
«Экосистема R как инструмент для автоматизации бизнес-задач».
Настоящая статья является ответом на возникшие вопросы по пакетам R, которые полезны для реализации описанных подходов. Я ее рассматриваю исключительно как справочную информацию, и отправную точку для последующего детального изучения заинтересовавшимися, поскольку за каждым пакетом скрывается огромное пространство со своей философией и идеологией, математикой и путями развития.

Как правило, все пакеты (9109 штук на 07.09.2016) находятся в репозитории CRAN. Те, что по тем или иным причинам, пока не опубликованы в репозиторий, могут быть найдены на GitHub. Итак, кратким списком:Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 58

Data Science Week 2016. Обзор первого и второго дня

Кластеризация с пакетом ClusterR, часть 1

ANOVA, или кто комментирует?

Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML

III Международная конференция АI Ukraine, 8-9 октября, Харьков

Выявление проблем дорожной сети с помощью Яндекс.Пробок. Лекция в Яндексе

Анализ данных с электросчетчика Eastron SDM220 средствами ThingSpeak

Будущее сайтов: автоматическая сборка на базе ИИ и не только

Джентельменский набор пакетов R для автоматизации бизнес-задач

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 58

Новости

Актуальные темы

Архив