Публикуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.
Рубрика «data mining» - 58
Data Science Week 2016. Обзор первого и второго дня
2016-09-26 в 11:18, admin, рубрики: big data, data mining, data science, data science week, Блог компании New Professions Lab, машинное обучение, метки: data science weekКластеризация с пакетом ClusterR, часть 1
2016-09-26 в 8:54, admin, рубрики: clustering, data mining, k-means, k-medoids, R, Блог компании Инфопульс Украина, кластеризация, машинное обучениеЭта статья посвящена кластеризации, а точнее, моему недавно добавленному в CRAN пакету ClusterR. Детали и примеры ниже в большинстве своем основаны на пакете Vignette.
Кластерный анализ или кластеризация — задача группирования набора объектов таким образом, чтобы объекты внутри одной группы (называемой кластером) были более похожи (в том или ином смысле) друг на друга, чем на объекты в других группах (кластерах). Это одна из главных задач исследовательского анализа данных и стандартная техника статистического анализа, применяемая в разных сферах, в т.ч. машинном обучении, распознавании образов, анализе изображений, поиске информации, биоинформатике, сжатии данных, компьютерной графике.
Наиболее известные примеры алгоритмов кластеризации — кластеризация на основе связности (иерархическая кластеризация), кластеризация на основе центров (метод k-средних, метод k-медоидов), кластеризация на основе распределений (GMM — Gaussian mixture models — Гауссова смесь распределений) и кластеризация на основе плотности (DBSCAN — Density-based spatial clustering of applications with noise — пространственная кластеризация приложений с шумом на основе плотности, OPTICS — Ordering points to identify the clustering structure — упорядочивание точек для определения структуры кластеризации, и др.).
Читать полностью »
ANOVA, или кто комментирует?
2016-09-20 в 22:15, admin, рубрики: ANOVA, data mining, Kruskal-Wallis, Mann-Whitney, R, Tukey's HSD, анализ данных, дисперсионный анализ, математика, машинное обучение, статистика, хабрахабр
В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать полностью »
Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»
2016-09-15 в 14:40, admin, рубрики: big data, data mining, data science, RПродолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем»,
«Экосистема R как инструмент для автоматизации бизнес-задач» и Джентельменский набор пакетов R для автоматизации бизнес-задач. Настоящая публикация преследует 2 цели:
-
Взглянуть на типичные задачи, которые встречаются в бизнесе, под немного другим углом.
- Попробовать их решить, частично или полностью, с использованием средств, предоставляемых R.
Читать полностью »
Как мы искали компромисс между точностью и полнотой в конкретной задаче ML
2016-09-13 в 6:48, admin, рубрики: big data, data mining, false positive, Блог компании HeadHunter, машинное обучение, обработка данных, управление требованиями
Я расскажу о практическом примере того, как мы формулировали требования к задаче машинного обучения и выбирали точку на кривой точность/полнота. Разрабатывая систему автоматической модерации контента, мы столкнулись с проблемой выбора компромисса между точностью и полнотой, и решили ее с помощью несложного, но крайне полезного эксперимента по сбору асессорских оценок и вычисления их согласованности.
Читать полностью »
III Международная конференция АI Ukraine, 8-9 октября, Харьков
2016-09-12 в 7:50, admin, рубрики: artificial intelligence, big data, data mining, FlyElephant, АIUkraine, Алгоритмы, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучениеКоманда FlyElephant приглашает всех c 8 по 9 октября в Харьков на III Международнаю конференцию АI Ukraine, которая посвящена вопросам Data Science, Machine Learning, Big Data и Artificial Intelligence.
На конференции будут рассмотрены темы из различных областей Data Science и Machine Learning:
- глубокое обучение нейронных сетей;
- компьютерное зрение;
- обработка естественного языка;
- рекомендательные системы;
- использование Machine Learning в биоинформатике;
- Big Data инструменты: Hadoop, Spark и др.
Я буду рад видеть всех на нашем стенде, а также на докладе, в котором расскажу об Читать полностью »
Выявление проблем дорожной сети с помощью Яндекс.Пробок. Лекция в Яндексе
2016-09-10 в 15:59, admin, рубрики: data mining, автомобильная навигация, Блог компании Яндекс, Геоинформационные сервисы, городская среда, исследование, исследование данных, машинное обучение, навигационные системы, пробки, пробки на дорогахЯндекс.Пробки и связанные с ними функции в Навигаторе и Картах работают благодаря данным о скорости машин на разных участках дорог. Это совсем не новая, но по-прежнему эффективная схема. Вопрос, возникший уже по мере развития Пробок — можно ли использовать указанные данные как-нибудь ещё?
Аналитик Карт Леонид Медников рассказал о примере такого использования на конференции Яндекса «Пути Сообщения 2016». Под катом — расшифровка доклада и большинство слайдов.
Анализ данных с электросчетчика Eastron SDM220 средствами ThingSpeak
2016-09-09 в 9:40, admin, рубрики: data mining, internet of things, IoT, Matlab, modbus, rs485, SDM220, ThingSpeak, визуализация данных, Разработка для интернета вещей, умный дом, электросчетчикВсем привет. В статье на geektimes я рассказывал, как подключиться к электросчетчику Eastron SDM220-Modbus и забрать с него данные по шине RS-485. Сегодня я хочу рассказать про сбор и анализ статистических данных о потреблении электричества в доме.
Будущее сайтов: автоматическая сборка на базе ИИ и не только
2016-09-08 в 13:47, admin, рубрики: data mining, Grid, smart-технологии, uKit, Анализ и проектирование систем, Блог компании uTeam, машинное обучение, нейронные сети, проблемы программирования, Разработка веб-сайтов, сайты для людей, тренды, умные шаблоныНаш технический директор* верит, что искусственный интеллект будет создан ориентировочно к середине этого века, и лет через пятьдесят с большой вероятностью будет достигнута около-сингулярность с виртуализацией, ИИ и вот этим всем.
Но чтобы светлое завтра наступило, уже сегодня нужно решать связанные с ним практические задачи. Так что мы занялись технологией, которая будет делать сайты за людей. Нет, не за специалистов, создающих сложные и высоконагруженные системы. А за ребят с “сайтом-визиткой за 3000” — потому что ИИ, как минимум, не пропадет на месяц после предоплаты.
Прелесть вот в чем: запуск конструктора сайтов с нейросетью и алгоритмическим дизайном** — дело не пятидесяти, а всего пары лет. Это будущее, которое можно пощупать уже сегодня.
Читать полностью »
Джентельменский набор пакетов R для автоматизации бизнес-задач
2016-09-07 в 11:55, admin, рубрики: big data, data mining, data science, RПродолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции» и
«Экосистема R как инструмент для автоматизации бизнес-задач».
Настоящая статья является ответом на возникшие вопросы по пакетам R, которые полезны для реализации описанных подходов. Я ее рассматриваю исключительно как справочную информацию, и отправную точку для последующего детального изучения заинтересовавшимися, поскольку за каждым пакетом скрывается огромное пространство со своей философией и идеологией, математикой и путями развития.
Как правило, все пакеты (9109 штук на 07.09.2016) находятся в репозитории CRAN. Те, что по тем или иным причинам, пока не опубликованы в репозиторий, могут быть найдены на GitHub. Итак, кратким списком:Читать полностью »