Рубрика «data mining» - 63

Наблюдаем за пользователем – два типа timestamp

2016-06-06 в 5:55, admin, рубрики: big data, data engineering, data mining, timestamp, Администрирование баз данных, метки времени, хранение данных, метки: data engineering, timestamp, метки времени

Давным-давно, один специалист по базам данных (из тех, бородатых и уже седых) сказал мне, что метки времени (timestamp) — это самая сложная тема в базах данных. Я ему, правда, не поверил, но приколы со временем реально встречаются.

Есть стандартная проблема, которую часто вижу в чужих данных. Положим собрались вы отслеживать события/действия пользователя. Обычно у вас будет это делать некий код (JS в вебе или SDK для аппов), который будет слать данные серверу.

Каждому событию нужна метка времени. И есть выбор из двух: локальное время на клиенте или время получения события сервером. Один хороший совет что делать и загадка без ответа под катом Читать полностью »

World of Tanks: от чего же зависит винрейт танков?

2016-06-03 в 10:57, admin, рубрики: data analysis, data mining, pandas, python, world of tanks, визуализация данных, статистика

Сегодня мы поговорим об использовании Wargaming API, построим много графиков и проанализируем, от чего же зависит винрейт танков. Сразу хочу отметить, что я не гуру World of Tanks, и если я где-то ошибся, то напишите пожалуйста в комментариях.

Читать полностью »

Как использовать Python для «выпаса» ваших неструктурированных данных

2016-06-03 в 9:17, admin, рубрики: classification, data mining, python, web scraping, Блог компании Издательский дом «Питер», книги, Программирование, Профессиональная литература

Здравствуйте, уважаемые читатели.

В последнее время мы прорабатываем самые разные темы, связанные с языком Python, в том числе, проблемы извлечения и анализа данных. Например, нас заинтересовала книга «Data Wrangling with Python: Tips and Tools to Make Your Life Easier»:

Как использовать Python для «выпаса» ваших неструктурированных данных - 1

Поэтому если вы еще не знаете, что такое скрепинг, извлечение неструктурированных данных, и как привести хаос в порядок, предлагаем почитать перевод интересной статьи Пита Тамисина (Pete Tamisin), рассказывающего, как это делается на Python. Поскольку статья открывает целую серию постов автора, а мы решили пока ограничиться только ею, текст немного сокращен.

Если кто-то сам мечтает подготовить и издать книгу на эту тему — пишите, обсудим.

Читать полностью »

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

2016-05-31 в 14:17, admin, рубрики: data mining, Алгоритмы, Блог компании MeanoTek, машинное обучение, нейронные сети, обработка естественного языка, обработка текстов, Семантика, метки: Машинное обучение

Некоторое время назад к нам обратился представитель банка АО «Банк ЦентрКредит» (Казахстан) с интересной задачей. Необходимо было интегрировать в конвейер обработки данных, представляющих из себя текст на естественном языке, дополнительный инструмент обработки. Всех деталей проекта мы раскрывать не можем, так как он находится в сфере безопасности банка и разрабатывается его службой безопасности. В освещении технологических аспектов задачи и способов их реализации заказчик не был против, что собственно мы и хотим сделать в рамках данной статьи.

В целом задача, состояла в извлечении некоторых сущностей из большого массива текстов. Не сильно отличающаяся проблема от классической задачи извлечения именованных сущностей, с одной стороны. Но определения сущностей отличались от обычных и тексты были довольно специфическими, а сроку на решение проблемы было две недели.
Читать полностью »

Лучшие пакеты для работы с данными в R, часть 1

2016-05-30 в 5:03, admin, рубрики: data mining, R, Блог компании Инфопульс Украина

Есть два отличных пакета для работы с данными в R — dplyr и data.table. У каждого пакета свои сильные стороны. dplyr элегантнее и похож на естественный язык, в то время как data.table лаконичный, с его помощью многое можно сделать всего в одну строку. Более того, в некоторых случаях data.table быстрее (сравнительный анализ доступен здесь), и это может определить выбор, если есть ограничения по памяти или производительности. Сравнение dplyr и data.table можно также почитать на Stack Overflow и Quora.

Здесь можно найти руководство и краткое описание data.table, а здесь — для dplyr. Также можно почитать обучающие материалы по dplyr на DataScience+.
Читать полностью »

Отпуск по-программистски, или как я не поучаствовал в конкурсе по программированию на JS. Часть первая

2016-05-28 в 3:56, admin, рубрики: data mining, javascript, JS, mining, neural networks, python, sql, Алгоритмы, Блог компании Асинхронный офлайн браузер «Мегалента»

Создание и поддержка в одиночку сложного продукта с большим зоопарком технологий и без финансовых вливаний со стороны — дело хлопотное и утомительное. Поэтому, узнав про конкурс с интересной задачей, ~~мы в Мегаленте~~ я подумал о том, чтобы устроить себе "творческий отпуск" и отвлечься ненадолго от работы над новой версией.

Задача состояла в том, чтобы написать программу на JS, которая будет определять, есть слово с словаре английских слов или нет. Вроде бы просто, но есть пара ограничений, делающих задачу заведомо невыполнимой:
– Словом считается не просто любое правильное слово английского языка, а именно слово, которое есть в предоставленном словаре из 600K+ слов.
– Словаря в момент исполнения программы нет, скачать его нельзя, а размер программы, включая данные, не должен превышать 64К. Внешние библиотеки подключать также нельзя, но файл данных может быть заархивирован.
Благодаря этим условиям вместо однозначного ответа результатом может быть только определение наибольшей вероятности присутствия слова в словаре.

Сразу скажу, что решение я так и не отправил из-за неудовлетворённостью результатом (решение, которое давало хотя бы 80%, я смог поместить только в 120-130К, а без превышения размера в 64К выжал максимум 70%).
Тем не менее опыт считаю достаточно интересным и достойным статьи. Под катом много SQL,JS,Python, нейронные сети, а также печальная правда о производительности CPU на хостинге.

Читать полностью »

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

2016-05-26 в 19:15, admin, рубрики: big data, data mining, nlp, relap, Блог компании Surfingbird, классификация, машинное обучение, нативная реклама, рекомендательные системы, Семантика, тематическое моделирование, формула Байеса, метки: формула Байеса

bayesian

Почему?

Сейчас Relap.io генерирует 40 миллиардов рекомендаций в месяц на 2000 медиаплощадках Рунета. Почти любая рекомендательная система, рано или поздно, приходит к необходимости брать в расчет содержимое рекомендуемого контента, и довольно быстро упирается в необходимость как-то его классифицировать: найти какие-то кластеры или хотя бы понизить размерность для описания интересов пользователей, привлечения рекламодателей или еще для каких-то темных или не очень целей.

Задача звучит довольно очевидно и существует немало хорошо зарекомендовавших себя алгоритмов и их реализаций: Латентное размещение Дирихле (LDA), Вероятностный латентно-семантический анализ (pLSA), явный семантический анализ (ESA), список можно продолжить. Однако, мы решили попробовать придумать что-нибудь более простое, но вместе с тем, жизнеспособное.
Читать полностью »

Четыре слова, которые нельзя (часть 2)

2016-05-24 в 21:21, admin, рубрики: big data, data mining, лингвистика, Читальный зал

По просьбе хабрачан продолжим публикации об исследовании обсценной лексики. (Если кто не читал первую часть, то можете ознакомиться).
Начнем сразу с картинок.
Итак, картинка первая.
Четыре слова, которые нельзя (часть 2) - 1
Рис.1. Распределение обсценной лексики по источникам.
Читать полностью »

Обработка данных в iPython notebook для задач SEO

2016-05-24 в 13:48, admin, рубрики: api, data mining, jupyter notebook, python, Вконтакте API, машинное обучение, Яндекс API

При выполнении аналитических задач SEO, SMM, маркетинга мы столкнулись с непомерно растущим количеством инструментов для обработки данных. Каждый заточен под свои возможности или доступность для пользователя: Excel и VBA, сторонние SEO-инструменты, PHP и MySQL, Python, C, Hive и другие. Разнообразные системы и источники данных добавляют проблем: счетчики, рекламные системы, CRM, инструменты вебмастера Яндекса и Google, соцсети, HDFS. Необходим инструмент, совмещающий в себе простоту настройки и использования, модули для получения, обработки и визуализации данных, а также работы с различными типами источников. Выбор пал на iPython notebook (с недавних пор Jupyter notebook), представляющий собой платформу для работы со скриптами на 40 языках программирования. Широкое распространение платформа получила для научных вычислений, среди специалистов по обработке данных и машинному обучению. К сожалению для автоматизации и обработки данных маркетинговых задач Jupyter notebook используется крайне редко.
Читать полностью »

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

2016-05-24 в 4:00, admin, рубрики: cohort analysis, cohort effect, data mining, exploratory data analysis, IIHF, R, визуализация данных, когортный анализ, когортный эффект, открытые данные, Программирование, регрессия, рост спортсменов, сборная России, спортивная аналитика, хоккей, чемпионат мира по хоккею 2016, метки: IIHF, регрессия, рост спортсменов, сборная России, хоккей, чемпионат мира по хоккею 2016

На днях завершился очередной чемпионат мира по хоккею.

За просмотром матчей родилась идея. Когда в перерывах телевизионная камера показывает уходящих в раздевалку игроков, трудно не заметить, насколько они огромные. На фоне тренеров, функционеров команд, сотрудников ледовой арены, журналистов или просто фанатов они, как правило, выглядят очень внушительно.

Вот, к примеру, восходящие звезды финского хоккея, Патрик Лайне и Александр Барков, вместе с преданными поклонниками

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке - 2

Источник

И я задался вопросами. Действительно ли хоккеисты выше обычных людей? Как изменяется рост хоккеистов со временем в сравнении с обычными людьми? Есть ли устойчивые межстрановые различия?

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 63

Наблюдаем за пользователем – два типа timestamp

World of Tanks: от чего же зависит винрейт танков?

Как использовать Python для «выпаса» ваших неструктурированных данных

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

Лучшие пакеты для работы с данными в R, часть 1

Отпуск по-программистски, или как я не поучаствовал в конкурсе по программированию на JS. Часть первая

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

Почему?

Четыре слова, которые нельзя (часть 2)

Обработка данных в iPython notebook для задач SEO

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 63

Почему?

Новости

Актуальные темы

Архив