В то время как за окном температура на пути к очередным рекордам, интересно посмотреть, а какие вообще бывали температуры в произвольный интервал времени, за любые года за последние несколько десятилетий в 30 000 точках по всему миру. А может не прогадать с днями отпуска, и взять их в те дни, когда есть какое-то «статистическое преимущество» в выбранном местоположении по теплой погоде, а может быть по холодной, оценив его визуально на любой из трех типов диаграмм. Ну или можно просто повращать глобус, визуально оценить разнообразие температур и «как прекрасен этот мир».
Читать полностью »
Рубрика «data mining» - 70
Отпуск. Где? Когда? R
2015-12-21 в 8:30, admin, рубрики: data mining, R, shiny, shiny dashboards, визуализация данных, метеостанция, отпуск, погода, рекорды, температура воздухаПоиск потенциальных фолловеров в Твиттере
2015-12-20 в 17:08, admin, рубрики: big data, data mining, twitter, twitter api, фолловерыПредположим есть аккаунт в Твиттере, в который пишут на достаточно ограниченный круг тем, на который подписано несколько сотен или тысяч человек. Как понять какая доля аудитории ещё не охвачена? Как найти этих людей?
Для примера рассмотрим аккаунт @Russia_Direct. Это небольшое издание, которое освещает события в России для англоязычных читателей. Что-то типа Russia Today, но с более глубокими и академичными материалами.
Сейчас на них подписаны ~4000 человек — студенты, журналисты, преподаватели университетов:
Применение машинного обучения для увеличения производительности PostgreSQL
2015-12-18 в 9:19, admin, рубрики: data mining, dbms, machine learning, postgres, postgresql, Блог компании Postgres Professional, машинное обучение
Машинное обучение занимается поиском скрытых закономерностей в данных. Растущий рост интереса к этой теме в ИТ-сообществе связан с исключительными результатами, получаемыми благодаря ему. Распознавание речи и отсканированных документов, поисковые машины — всё это создано с использованием машинного обучения. В этой статье я расскажу о текущем проекте нашей компании: как применить методы машинного обучения для увеличения производительности СУБД.
В первой части этой статьи разбирается существующий механизм планировщика PostgreSQL, во второй части рассказывается о возможностях его улучшения с применением машинного обучения.
Эволюция структур данных в Яндекс.Метрике
2015-12-17 в 10:10, admin, рубрики: big data, columnar database, data mining, olap, базы данных, Блог компании Яндекс, веб-аналитика, высокая производительность, структуры данных, хранение данных, яндекс, яндекс.метрикаЯндекс.Метрика сегодня это не только система веб-аналитики, но и AppMetrica — система аналитики для приложений. На входе в Метрику мы имеем поток данных — событий, происходящих на сайтах или в приложениях. Наша задача — обработать эти данные и представить их в подходящем для анализа виде.
Но обработка данных — это не проблема. Проблема в том, как и в каком виде сохранять результаты обработки, чтобы с ними можно было удобно работать. В процессе разработки нам приходилось несколько раз полностью менять подход к организации хранения данных. Мы начинали с таблиц MyISAM, использовали LSM-деревья и в конце концов пришли к column-oriented базе данных. В этой статье я хочу рассказать, что нас вынуждало это делать.
Яндекс.Метрика работает с 2008 года — более семи лет. Каждый раз изменение подхода к хранению данных было обусловлено тем, что то или иное решение работало слишком плохо — с недостаточным запасом по производительности, недостаточно надёжно и с большим количеством проблем при эксплуатации, использовало слишком много вычислительных ресурсов, или же просто не позволяло нам реализовать то, что мы хотим.
Читать полностью »
Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать
2015-12-16 в 10:33, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных
Привет Хабр,
Если вам давно было интересно, как Big Data применяется в разных областях бизнеса, науки и государственного управления и это хотелось услышать от самих людей, которые этим занимаются, то добро пожаловать на Фестиваль Данных, который будет проходить 19 декабря на Выставке Высоких Технологий SMIT в Музее Москвы.
В течение нескольких часов работы Фестиваля ведущие эксперты отрасли из Yandex, Школы Данных «Билайн», Data-Centric Alliance, Авито, ГУП «НИ и ПИ Генплана Москвы, НИУ ВШЭ расскажут гостям выставки о перспективах использования анализа данных в ближайшие несколько лет.
Читать полностью »
Как попасть на дачу президента в пять часов утра
2015-12-16 в 8:36, admin, рубрики: data mining, государственная безопасность, дача президента, информационная безопасность, метки: государственная безопасность, дача президентаЭтот пост о том, как обычный взлом обернулся муками совести и душевными терзаниями. Исходников будет не много, больше фоток и анализа. Итак, некто Вася работает «плохим парнем». Степень падения Васи такова, что средства на жизнь ему приносит поиск и разбор информации, доступ к которой был скомпрометирован вследствие неграмотного обслуживания, безалаберности или экономии на обслуживающем персонале.
Проверка теории шести рукопожатий
2015-12-15 в 14:15, admin, рубрики: data mining, python, visualisation, Вконтакте API
Хочу рассказать о своем эксперименте по проверке «Теории шести рукопожатий». На написание этого материала меня вдохновила статья «Анализ дружеских связей VK с помощью Python» (чтобы избежать повторений, в дальнейшем я буду ссылаться на нее). Так как в целом задача мной была поставлена по-другому, да и использованные методы тоже отличаются, то я решил что это может быть интересно.
Читать полностью »
Использование Google Analytics в играх
2015-12-14 в 16:05, admin, рубрики: data mining, game development, google analytics, Google API, Tracking, Анализ и проектирование систем, аналитика, Блог компании Plarium, игры, разработка, сбор данных, статистикаВо время разработки игры SUPERVERSE нам нужно было средство для отслеживания того, как игроки взаимодействуют с игрой, а также получения сведений о «железе», разрешении экрана, операционной системе и т.д. Эти данные могли пригодиться не только на этапе отладки, но и помогли бы изучить особенности поведения пользователей в игре.
Исследователь выложил в свободный доступ бэкапы десятков магазинов и форумов даркнета
2015-07-16 в 16:32, admin, рубрики: big data, data mining, silk road, даркнет, информационная безопасность, Читальный зал, метки: даркнет
Независимый интернет-исследователь Гверн Брэнвен выложил на своём сайте всеобъемлющий архив с данными торговых площадок т.н. «даркнета», которые он тщательно собирал с 2013 года. Объём данных составляет около 50 Гб в архиве (и более 1,6 Тб в распакованном виде). Среди них – интернет-магазины, форумы, доски объявлений и другие сайты, находившиеся на «скрытых сервисах» Tor и торговавшие всякими интересными, и поэтому запрещёнными, товарами.
Всего в выборку попало 89 магазинов, 37 форумов и 5 других сайтов, которые неутомимый исследователь, рискуя своей репутацией перед правоохранительными органами, посещал и скачивал в ежедневном режиме. Архив доступен для скачивания в виде торрента.
Это исследование, по признанию автора, было вдохновлено возникновением первого масштабного магазина Silk Road, владельца которого не так давно арестовали и осудили. Когда в 2013 году магазин прекратил своё существование, в образовавшийся вакуум хлынули его конкуренты мелкого масштаба – и вот тогда-то и началось всё самое интересное. Развитие даркнета сподвигло Гверна на сбор подробной информации с целью её дальнейшего изучения.
Читать полностью »
Черная археология дата майнинга
2015-06-19 в 19:31, admin, рубрики: big data, data mining, безопасность, информационная безопасность, обработка данных, черная археологияЕсть темы, по которым очень мало статей по специальности data science, но которые представляют интерес для специалистов по безопасности. Это статистические исследования логинов и паролей пользователей – данные, добытые «черными археологами» дата майнинга.
Мне было интересно посмотреть некоторые закономерности и для этой цели я взял базу данных паролей, утёкших в 2014 году – от Яндекса, Гугла и Мейлру, объемом 6 миллионов записей.
Читать полностью »