Доброго времени суток. В процессе разработки одного из методов кластеризации, возникла у меня потребность визуализировать гауссиан (нарисовать эллипс по сути) на плоскости по заданной ковариационной матрице. Но я как-то сразу и не задумался, что за простой отрисовкой обычного эллипса по 4 числам скрываются какие то трудности. Оказалось, что при расчете точек эллипса используются собственные числа и собственные векторы ковариационной матрицы, расстояние Махаланобиса, а так же квантили распределение хи-квадрат, которое я, честно говоря, не использовал со времен университета ни разу.
Рубрика «data mining» - 90
Визуализация двумерного гауссиана на плоскости
2013-10-26 в 10:32, admin, рубрики: data mining, математика, матрица ковариации, эллипс, метки: матрица ковариации, эллипсКто живет в соцсетях?
2013-10-23 в 11:03, admin, рубрики: big data, data mining, Facebook, Вконтакте, Инфографика, одноклассники, Социальные сети и сообщества, фейсбук, метки: Facebook, Вконтакте, инфографика, одноклассники, фейсбук Как бы ни гремели скандалы про PRISM, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё: какие котята нравятся, с кем ты дружишь и почему с утра такой не выспавшийся.
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом, и мне всегда хотелось её пощупать. С одной стороны, эти данные лежат вроде бы в открытом доступе, но просто взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно. К тому же, насколько я знаю, пригодных для машинного анализа наборов данных о соцсетях практически не существует. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.
О том, что удалось выудить из таких данных, и пойдет рассказ.Читать полностью »
ETL-процесс с использованием веб-сервисов в Integration Services 2012
2013-10-19 в 20:13, admin, рубрики: big data, BigData, Business Intelligence, c#.net, data mining, datamining, etl, MS Sql Server, SSIS, XML, метки: BigData, Business Intelligence, c#.net, datamining, etl, MS Sql Server, SSIS, XMLЗапасаем впрок
Иногда в процессе работы бывают нужны данные из веб-сервисов, тем более SOAP соединения сегодня практически стандарт.
ETL-процесс (Extract — Transform — Load) это термин из Business Intelligence и описывает процесс сбора и трансформации данных для создания аналитической базы данных (например хранилища данных).
SOAP протокол обмена данных и веб-сервисы описываемые WSDL — распространенные окна в мир практически всех ERP систем, многих онлайн порталов и финансовых организаций.
Попробую описать пошагово ETL процесс с помощью одного из мощнейших инструментов в классе — MS Integration Services.
Итак, рассмотрим тестовую задачу.
Задача
Необходимо собрать данные о курсах валют по отношению к рублю на каждую дату прошлого года и загрузить их в таблицу для последующего анализа. Центробанк России предоставляет историчекие данные — в виде веб сервисов с неплохим описанием.
Похоже это и есть решение.
Читать полностью »
Как воспользоваться возможностями R в C++
2013-10-18 в 15:20, admin, рубрики: c++, data mining, метки: c++, tcp-ipR — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU © Wikipedia.
В R собрано огромное число статистических алгоритмов на все случаи жизни и их можно использовать не только из родной програмной среды: его поддерживают такие известные математические пакеты, как SPSS, Statistica, SAS, Wolfram Mathematica и некоторые другие. Как же можно интегрировать R в свои приложения?
На хабрахабре уже была статья про использование R в С++, однако она осветила всего один из способов, который возможно использовать только если ваш код распространяется под GPL-совместимой лицензией. Но и в противном случае есть выход — использование пакета Rserve.
Читать полностью »
Копание в данных как степень свободы
2013-10-14 в 19:04, admin, рубрики: data mining, reporting, sql, базы данных, Софт, хранилище данных, метки: data mining, reporting, sql, базы данных, хранилище данных Приветствую уважаемых читателей.
Данный материал прольет свет на проблему удобства работы с РСУБД, которой я посвятил много лет, но никак не находил времени рассказать.
Если вы не занимаетесь поиском, просмотром и анализом данных или же делаете это, но полностью удобно и не имеете ни в чем нужды, смело бросайте чтение данного текста.
Проблематика
Итак, вы – пользователь, имеющий право на чтение в некой СУБД. Вероятно, перед вами стоит набор типовых подзадач:
- Разобраться со структурой данных
- Найти в ней нужные сущности
- Найти в них нужные поля
- Найти связи между сущностями
- Найти интересующие значения
- Отобрать набор значений
- Выбрать нужные данные
- Убедиться, что это действительно ТЕ САМЫЕ данные, которые вы искали
- Сохранить результаты
- Подготовить из них отчеты
Наконец, весьма вероятно, что эти задачи вам надо решать регулярно.
На рынке инструментов обработки данных представлено огромное количество средств, посвященных построению запросов, кубов и отчетов. Прискорбно, но большая часть из них не видит наличия у пользователя вышеперечисленных задач во всей их полноте. Перечислим типичные проблемы, в обратном порядке относительно предыдущего списка:
Читать полностью »
Прикручиваем пространственный индекс к ничего не подозревающей OpenSource СУБД
2013-10-10 в 5:09, admin, рубрики: data mining, diy или сделай сам, open source, spatial index, Поисковые машины и технологии, СУБД, метки: open source, spatial index, СУБД 
Мне всегда нравилось, когда заголовок однозначно говорит о том, что будет дальше, например, «Техасская резня бензопилой». Поэтому под катом мы действительно будем добавлять пространственный поиск к СУБД, в которой его изначально не было.
Читать полностью »
Доступ к файловой системе в MarkLogic Server
2013-10-04 в 14:36, admin, рубрики: big data, data mining, nosql, XML, метки: big data, data mining, nosql, XML MarkLogic является сервером приложений и любая программа написанная на XQuery для него может получить доступ не только к объектам хранящимся в самой базе данных, но и к файлам находящимся непосредственно на файловой системе.
API предоставляющий доступ к файловой системе в MarkLogic Server не так уж и богат, но имеющихся средств вполне достаточно чтобы зачитывать данные с файловой системы напрямую из XQuery кода и выполнять сохранения файлов на неё.
Читать полностью »
Данные в MarkLogic Server [Part2]
2013-09-27 в 12:12, admin, рубрики: big data, BigData, data mining, nosql, XML, метки: BigData, data mining, nosql, XML Еще немного о том как MarkLogic Server хранит данные.
Читать полностью »
Оценка результатов линейной регрессии
2013-09-25 в 10:00, admin, рубрики: data mining, linear regression, линейная регрессия, математика, метки: data mining, linear regression, линейная регрессияВведение
Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию. Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.
Читать полностью »
Продолжаем разбирать квест Harvester 1996 года
2013-09-25 в 7:23, admin, рубрики: data mining, reverse engineering, Восстановление данных, игры, квест про квест, перевод, реверс-инжиниринг, метки: data mining, reverse engineering, игры, квест про квест, перевод, реверс-инжинирингВсем добра.
В прошлый раз я остановился на том, что внедрил Arial в игру и был доволен.

Сразу стали видны минусы, шрифт не вписывается в стиль игры.
Появились новые заморочки:
- внедрить красивый русский шрифт, стилизованный под оригинальный,
- разобраться с пропуском почти всех видео в dosbox.
Инструменты: IDA, dosbox + debugger, winhex.
Читать полностью »
