Сегодня – вторая серия цикла, начатого в прошлый раз; тогда мы поговорили о направленных графических вероятностных моделях, нарисовали главные картинки этой науки и обсудили, каким зависимостям и независимостям они соответствуют. Сегодня – ряд иллюстраций к материалу прошлого раза; мы обсудим несколько важных и интересных моделей, нарисуем соответствующие им картинки и увидим, каким факторизациям совместного распределения всех переменных они соответствуют.
Рубрика «data mining» - 94
Вероятностные модели: примеры и картинки
2013-04-25 в 6:26, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, математика, математическое моделирование, теория вероятностей, метки: data mining, байесовские сети, математика, математическое моделирование, теория вероятностейGoogle купил новостной стартап Wavii за более чем 30 млн долларов
2013-04-23 в 20:19, admin, рубрики: data mining, Google, обработка естественного языка, метки: Google, обработка естественного языка
Google договорился о приобретении стартапа Wavii за сумму более 30 млн долларов, сообщает TechCrunch. Что представляет собой стартап можно понять из описания журналиста Time: «Wavii ищет в Интернете, находит новости и обобщает их, со ссылками на полные статьи из множества источников». При этом он использует собственную технологию обработки естественного языка.
За стартап из Сиэтла боролись Apple и Google, и в итоге выиграл последний. Apple хотел использовать технологии агрегации и обработки естественного языка в своём Siri, но в итоге команда из 25 человек переезжает в подразделение Google, занимающееся проектом «Сеть знаний» (Knowledge Graph).
Читать полностью »
Рекомендательные системы: You can (not) advise
2013-04-23 в 17:32, admin, рубрики: data mining, рекомендательные системы, метки: data mining, рекомендательные системы
Более полугода назад в поисках что посмотреть, я листал топ произведений. Это занятие повторялось уже много раз и успело надоесть — постоянно приходилось пропускать то, что я смотреть не хочу. Имхонетами раньше не пользовался, да и не доверял им из-за специфики искомых произведений. На сайте, где я производил поиски, была возможность создать свой список просмотренных произведений и выставить оценку, также были доступны оценки других пользователей. Тут мне в голову пришла гениальная идея, как оказалось позднее банальная, — используя оценки других пользователей делать рекомендации. Данная деятельность называется коллаборативной фильтрацией, а программа её реализующая — Рекомендательной системой(РС). Оглядываясь назад я понимаю, что совершил множество ошибок из-за недостатка информации и её труднодоступности в данной тематике, а что самое главное — сильно переоценил РС. В данном посте я сделаю обзор основных типов и алгоритмов РС, а также постараюсь передать часть своих знаний и опыта.
Читать полностью »
Обучение в Computer Science центре: НИР и практики
2013-04-23 в 10:57, admin, рубрики: computer science, data mining, software engineering, обучение, обучение программированию, Учебный процесс в IT, метки: computer science, data mining, software engineering, обучение, обучение программированиюComputer Science центр существует уже два года, этим летом у нас будет первый выпуск. В данном посте я решила собрать ссылки на впечатления студентов о практиках и научно-исследовательских работах.
НИР и практика
НИР и практика в центре позиционируются как неотъемлемые части обучения. Кураторами выступают заинтересованные научные руководители, опытные разработчики.
Читать полностью »
ЦРУ — большие задачи и большие данные. На пути к созданию глобального информационного колпака
2013-04-22 в 8:01, admin, рубрики: big data, data mining, информационная безопасность, Новые технологии, социальные сети, ЦРУ
Айра Гас Хант (Ira Gus Hunt), действующий Директор по технологиям ЦРУ, рассказывает о своем видении Big Data на службе ЦРУ, а также возникающие при этом задачи и методы их решения. Выступление состоялось на конференции GigaOM Structure:Data 2013, проходившей 20 марта в Нью-Йорке. Как говорят очевидцы это было одно из самых интересных и запоминающихся выступлений.
Читать полностью »
Дата-майнинг помог заработать Пулитцеровскую премию
2013-04-17 в 11:57, admin, рубрики: data mining, дата-майнинг, журналистика, Медиа, полиция, превышение скорости, метки: дата-майнинг, журналистика, полиция, превышение скорости
Самую престижную награду в области журналистики в этом году получила газета Sun Sentinel из Южной Флориды за серию статей «Превыше закона: копы на высокой скорости».
Для расследования журналисты запросили из полицейских участков записи о прохождении патрульными машинами пропускных пунктов SunPass на платных дорогах. В каждой записи SunPass стоит отметка с точным временем прохождения пункта. Полиция предоставила информацию, не заподозрив подвоха.
Читать полностью »
Mathlingvo — блог о компьютерной лингвистике
2013-04-16 в 8:01, admin, рубрики: data mining, natural language processing, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, Поисковые машины и технологии, метки: natural language processing, Компьютерная лингвистика, обработка естественного языкаNatural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru
Вероятностные модели: байесовские сети
2013-04-12 в 12:31, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, математика, математическое моделирование, теория вероятностей, метки: data mining, байесовские сети, математика, математическое моделирование, теория вероятностейВ этом блоге мы уже много о чём поговорили: были краткие описания основных рекомендательных алгоритмов (постановка задачи, user-based и item-based, SVD: 1, 2, 3, 4), о нескольких моделях для работы с контентом (наивный Байес, LDA, обзор методов анализа текстов), был цикл статей о холодном старте (постановка задачи, текстмайнинг, теги), была мини-серия о многоруких бандитах (часть 1, часть 2).
Чтобы двигаться дальше и поместить эти и многие другие методы в общий контекст, нам нужно выработать некую общую базу, научиться языку, на котором разговаривают современные методы обработки данных, – языку графических вероятностных моделей. Сегодня – первая часть этого рассказа, самая простая, с картинками и пояснениями.
В Excel 2013 появилась эффектная трёхмерная визуализация данных на карте
2013-04-12 в 7:35, admin, рубрики: data mining, Excel, microsoft, визуализация, метки: Excel, gis, визуализация
Для версий Office Professional Plus 2013 и Office 365 ProPlus в составе Excel появился эффектный инструмент GeoFlow, который добавляет возможности 3D-визуализации данных на карте в виде различных диаграмм с возможностями анимации — таким образом, табличный процессор получил некоторые отличительные черты геоинформационных систем таких как ArcGis или AutoCad Map. Скачать аддон и оценить его возможности можно здесь.
Суть работы GeoFlow должна быть понятна из скриншота выше и из видео-демонстрации под катом. Фактически, располагая некоторой географически распределенной информацией, автор книги Excel может привязать её к реальным координатам, выбрать способ визуализации (к примеру, столбиковые диаграммы) и сразу получить эффектную и действительно наглядную картинку.
Читать полностью »
Нелинейное сжатие размерности, используя ограниченную машину Больцмана
2013-04-10 в 23:18, admin, рубрики: data mining, principal component analysis, restricted boltzmann machine, Алгоритмы, искусственный интеллект, ограниченная машина больцмана, метки: principal component analysis, restricted boltzmann machine, ограниченная машина больцманаПривет. В этом посте мы продолжим экспериментировать с ограниченной машиной Больцмана. В предыдущем посте о регуляризации в РБМ мы увидели как можно получить более локальные фичи, которые обладают большей обобщающей способностью. Но мы не оценили их робастность по сравнению с более простыми и быстрыми алгоритмами. Для этого эксперимента мы обратимся к линейному методу главных компонент (вы можете ознакомиться с этим методом и глянуть реализацию на c# в моем первом посте). Желающим ознакомиться с первоисточником по теории сжатия размерности с использованием РБМ рекомендую глянуть статьи Джеффри Хинтона тут и тут. Мы же продолжим тестирование на множестве печатных больших букв: обучим РБМ, построим главные компоненты, сгенерируем сжатые представления данных, а из них восстановим первоначальные изображения, и затем оценим разницу между оригинальными изображениями и восстановленными.