Добрый день, уважаемые читатели.
Пролетели 2 недели и пришло время нашей подборки материалов по анализу данных. Сегодняшний дайджест получился большим, и признаюсь често сам осилил не все, что в него попало. Но так как на вкус и цвет товарище нет, то я решил выложить всю подборку.
Итак, из сегодняшней подборки вы узнаете о том как использовать хранилища данных различных типов в одном проекте, посмотрите какими большими данными может обладать бизнес и как их анализ может ему помочь. Также в нашей подборке будет статья посвященная алгоритму FTCA, а также будет материал про сравнени различных алгоритмов машинного обучения.
Читать полностью »
Рубрика «data mining» - 85
Дайджест статей по анализу данных №3 (09.06.2014 —22.06.2014)
2014-06-22 в 15:03, admin, рубрики: big data, data mining, digest, анализ данных, дайджест, метки: big data, data mining, digest, анализ данных, дайджестВероятностные модели: сэмплирование
2014-06-20 в 11:52, admin, рубрики: data mining, Алгоритмы, байесовские сети, Блог компании Surfingbird, искусственный интеллект, математика, математическое моделирование, сэмплирование, теория вероятностей, метки: data mining, байесовские сети, математика, математическое моделирование, сэмплирование, теория вероятностей И снова здравствуйте! Сегодня я продолжаю серию статей в блоге Surfingbird, посвящённую разным методам рекомендаций, а также иногда и просто разного рода вероятностным моделям. Давным-давно, кажется, в прошлую пятницу летом прошлого года, я написал небольшой цикл о графических вероятностных моделях: первая часть вводила основы графических вероятностных моделей, во второй части было несколько примеров, часть 3 рассказывала об алгоритме передачи сообщений, а в четвёртой части мы кратко поговорили о вариационных приближениях. Цикл заканчивался обещанием поговорить о сэмплировании — ну что ж, не прошло и года. Вообще говоря, в этом мини-цикле я поведу речь более предметно о модели LDA и о том, как она помогает нам делать рекомендации текстового контента. Но сегодня начну с того, что выполню давнее обещание и расскажу о сэмплировании в вероятностных моделях — одном из основных методов приближённого вывода.
Читать полностью »
Введение в теорию покерных ботов для чайников
2014-06-18 в 11:56, admin, рубрики: bot, data mining, idea, Анализ и проектирование систем, искусственный интеллект, метки: bot, idea, покерКак выиграть в покер? Ответ нужно начать с уточнения, что в покер можно выиграть только в долгосрочной перспективе. Нет никакой легитимной возможности гарантированно выиграть отдельно взятую руку. И в дальнейшем, когда я буду говорить о победе, я буду иметь ввиду победу именно в долгосрочной перспективе (рост банкролла).
Дайджест наиболее интересных материалов по анализу данных (9 — 16 июня 2014)
2014-06-18 в 11:19, admin, рубрики: big data, data mining, data science, data science digest, machine learning, метки: data mining, data science, data science digest, machine learning Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.
Читать полностью »
Поиск закономерностей в последовательности «случайных» событий
2014-06-11 в 7:29, admin, рубрики: data mining, haskell, конкурсы, я пиарюсь, метки: data mining, haskell, конкурсыВ июне 2014 года, как это обычно бывает по чётным месяцам, был проведён конкурс по функциональному программированию, который проводится под эгидой Фонда Поддержки Функционального Программирования ФП(ФП). Традиционно я хотел бы подвести итоги конкурса и рассказать о решении конкурсной задачи при помощи языка программирования Haskell. Так что всех заинтересованных я приглашаю ознакомиться с этой небольшой заметкой.
В качестве задачи на конкурс была предложена задача по поиску закономерностей в ряду проявлений казалось бы «случайного» события. Но как и всё в этом мире чисто случайными являются, видимо, результаты измерения квантовых состояний, так что во всём другом можно найти какие-то закономерности. Так и здесь. Был дан список дат, когда произошло некоторое событие, и предлагалось дать ответы на два вопроса:
- Каков минимальный период, в котором частотная вероятность проявления события хотя бы в один день периода равна или более 50 %?
- Необходимо было дать прогноз проявления события с даты конкурса до конца текущего года.
Только два конкурсанта смогли предоставить решения. Впрочем, оба они были неправильными, поскольку правильным ответом на первый вопрос является число 24. А вот вторая задача будет обработана в конце года, когда будет явлена статистика по проявлениям событий. Так что приз за первый вопрос остался неразыгранным, а приз за второй вопрос будет предоставлен тому конкурсанту, прогноз которого наберёт больше очков, в следующем году.
Ну а здесь остаётся рассмотреть решение этих задач на языке программирования Haskell.
Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014)
2014-06-08 в 14:44, admin, рубрики: big data, data mining, digest, анализ данных, дайджест, метки: big data, data mining, digest, анализ данных, дайджест Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.
В сегодняшней подборки вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшую шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.
Twitter передал шести университетам всю базу твитов с 2006 года
2014-05-27 в 11:09, admin, рубрики: data mining, OSINT, twitter, twitter api, дата-майнинг, информационная безопасность, научные исследования, метки: OSINT, twitter, дата-майнинг, научные исследования
Каждый день в Twitter публикуется 500 млн сообщений. Такой массив информации с персональными данными — настоящая золотая жила для дата-майнинга. На базе твитов учёные изучают паттерны в человеческом поведении, социальные связи, распространение инфекционных болезней, факторы риска для организма человека и многое другое, пишет июньский выпуск журнала Scientific American.
Читать полностью »
Дайджест статей по анализу данных и big data
2014-05-23 в 9:34, admin, рубрики: big data, data mining, digest, анализ данных, дайджест, метки: big data, data mining, digest, анализ данных, дайджестЧастенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.
Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.
Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.
Автоматическая расстановка поисковых тегов
2014-05-14 в 8:04, admin, рубрики: data mining, Алгоритмы, анализ текста, Блог компании FAVORaim, искусственный интеллект, математика, Программирование, метки: data mining, анализ текста, искусственный интеллект, математикаВ этой статье мы попытаемся рассказать о проблеме множественной классификации на примере решения задачи автоматической расстановки поисковых тегов для текстовых документов в нашем проекте www.favoraim.com. Хорошо знакомые с предметом читатели скорее всего не найдут для себя ничего нового, однако в процессе решения этой задачи мы перечитали много различной литературы где о проблеме множественной классификации говорилось очень мало, либо не говорилось вообще.
Итак, начнем с постановки задачи классификации. Пусть X — множество описаний объектов, Y — множество номеров (или наименований) классов. Существует неизвестная целевая зависимость — отображение y^*:X→Y, значения которой известны только на объектах конечной обучающей выборки X^m={(x_1,y_1 ),…,(x_m,y_m )}. Требуется построить алгоритм a:X→Y, способный классифицировать произвольный объект x∈X. Однако более распространенным является вероятностная постановка задачи. Пусть X — множество описаний объектов, Y — множество номеров (или наименований) классов. На множестве пар «объект, класс» X×Y определена вероятностная мера P. Имеется конечная обучающая выборка независимых наблюдений X^m={(x_1,y_1 ),…,(x_m,y_m )}, полученных согласно вероятностной мере P.
Читать полностью »
Чтобы скрыть беременность от маркетинговых компаний, женщина использовала Tor
2014-05-02 в 10:01, admin, рубрики: data miningДва года назад многих удивила новость о том, что американская торговая сеть Target узнала о беременности девушки раньше, чем её отец. «Она ещё в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы?», — кричал тогда рассерженный отец. Ничего удивительного: простой дата-майнинг истории покупок с привязкой к дисконтной или банковской карте.
Оказывается, многие маркетинговые компании сейчас активно пытаются найти именно беременных женщин, потому что те находятся в преддверии большого количества предсказуемых покупок. Поэтому ритейлеры и производители детских товаров много платят за такую информацию. В эпоху таргетированной рекламы один только факт беременности примерно в 200 раз повышает стоимость профиля потребителя.
Читать полностью »