Рубрика «анализ данных» - 27

Прим. перев.: Американский писатель Майкл Льюис известен не только своими историями о трейдерах с Уолл Стрит, но и (в первую очередь) книгой Moneyball, по которой впоследствии был снят одноименный фильм («Человек, который изменил все»). Главный ее герой – Билли Бин, генеральный менеджер бейсбольной команды «Oakland Athleticks», создает конкурентоспособную команду исключительно на основе анализа статистических показателей игроков.

Памятуя об этом, мы решили опубликовать один любопытный материал о том, к каким интересным и нетривиальным выводам можно прийти, анализируя публично доступную статистику игр NBA за последние 30 лет с помощью фреймворка MongoDB Aggregation. Несмотря на то, что в данном примере автор анализирует показатели команд в целом, а не статистику по отдельным игрокам (она также находится в открытом доступе), он приходит к весьма занимательным выводам – руководствуясь его выкладками вполне реально провести самостоятельный анализ, подобно тому, как в свое время поступили герои Moneyball.

image

При поиске средства анализа массивов данных больших объемов и сложной структуры вы можете инстинктивно обратиться к Hadoop. С другой стороны, если вы храните свои данные в MongoDB, использование Hadoop Connector кажется излишним, особенно если все ваши данные помещаются на ноутбук. К счастью, встроенный фреймворк MongoDB Aggregation предлагает быстрое решение для проведения комплексной аналитики прямо с экземпляра MongoDB без установки дополнительного ПО. Читать полностью »

«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч

Нефтяные ряды в R - 1

С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.
Читать полностью »

Ни для кого не секрет, что сегодня сети wi-fi получили повсеместное распространение. Использование публичных точек в основном используется как конкурентное преимущество в среде моллов, гостиниц, в HoReCa и непосредственно получение прибыли эта технология пока не приносит не приносит. Хотя вполне логично, что можно не только давать пользователям интернет, но и анализировать их активность и оценивать различные прикладные параметры.

image

В данной статье мы поговорим о том, как мы работали над одним проектом, целью которого был такой анализ. Всех заинтересовавшихся прошу под кат!
Читать полностью »

IBM запускает гуманитарные инициативы для борьбы с лихорадкой Эбола
3D модель вируса Эбола

Компания IBM объявляет о запуске гуманитарных инициатив, которые призваны помочь в борьбе с распространением лихорадки Эбола в Западной Африке. В рамках программы помощи пострадавшим странам IBM представляет систему аналитики в Сьерра-Леоне, которая помогает гражданам сообщать о случаях заболеваний, а также получать консультации по волнующим их вопросам. Помимо этого IBM предоставляет платформу IBM Connections, которая поможет правительству Нигерии подготовиться к возможным вспышкам заболевания в будущем, а также глобальную платформу, где можно обмениваться открытыми данными о вирусе Эбола.

Данные инициативы объединяют экспертизу глобальной сети исследовательских лабораторий IBM с многолетней практикой компании в области ликвидации последствий гуманитарных катастроф при помощи мобильных технологий, средств аналитики данных и облачных вычислений. Инициативы IBM помогают правительственным структурам и гуманитарным организациям в борьбе со смертельными заболеваниями.

Читать полностью »

Приветствую всех присутствующих здесь дам, господ и причисляющих себя к двум вышеуказанным категориям.

Волею изменчивой судьбы мне иногда приходится проводить всякие анализы всяких данных для всяких организаций. И сейчас я хотел бы поделиться с вами частью одного из таких анализов.

Вопрос стоял приблизительно таким образом — какова степень присутствия и влияния российских IT-специалистов (постоянно проживающих в России, само собой) на мировое IT-сообщество?

Здесь приводится та часть анализа, в которой говорится о влиянии российских IT-специалистов (к ним причисляются вообще все интересующиеся IT люди) на мировое сообщество на примере анализа двух крупнейших международных IT-сообществ — stackoverflow.com и github.com.

А вот и сам анализ:
Читать полностью »

Как только Google Analytics или Яндекс.Метрика публикуют новость о новом отчёте, метрике или обновлении интерфейса и всё сообщество ликует, я испытываю лёгкое головокружение. Но не от радости. Для меня это сигнал о том, что в ближайшее время вместо того, чтобы работать над качеством продукта, мы начнем изучать системы аналитики. Погоня за количеством данных вытеснила стремление к качеству анализа на задворки потребностей. Точность стала важнее тренда, а на сайтах теперь стоят по 3-5 счётчиков от разных систем аналитики.

Как заставить данные говорить

Данных много не бывает? Ещё как бывает. Вспомните про парадокс данных, который отлично сформулировал Авинаш Кошик. Недостаток данных не позволяет принимать решения, но и изобилие не даёт представление о том, что происходит.

Так не пора ли приступить к поискам ответов? Я расскажу об универсальном методе, который помогает мне делать выводы, а еще приносит огромное удовольствие в работе с информацией. Чтобы далекие от интернет-маркетинга и веб-аналитики пользователи не заскучали, для примера я взяла тему из нашей с вами повседневной реальности.

Читать полностью »

Совсем недавно в публичный доступ попали базы паролей популярных почтовых сервисов [1,2,3] и сегодня мы их проанализируем и ответим на ряд вопросов о качестве паролей и возможном источнике (или источниках). Так же мы обсудим метрики качества отдельных паролей и всей выборки.

Не менее интересными являются некоторые аномалии и закономерности баз паролей, возможно, они смогут пролить свет на то, что могло служить источником данных и насколько данная выборка является опасной с точки зрения обычного пользователя.

Формально, мы рассмотрим следующие вопросы: насколько надежными являются пароли в базе и могли ли они быть собраны словарной атакой? Есть ли признаки фишинговых атак? Могла ли «утечка» данных быть единственным источником данных? Могла ли данная база быть аккумулирована в течении длительного периода или данные исключительно «свежие»?

Структура статьи:

  1. Описание данных
  2. Невалидные пароли и не-пароли
  3. Распределение длины паролей
  4. Распределение надёжности паролей
  5. Словарная атака
  6. Топ паролей
  7. Выборка Gmail
  8. Выборка Rambler
  9. Анализ открытых источников
  10. Заключение

Читать полностью »

Несколько слов о «линейной» регрессииИногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.
Читать полностью »

Социально культурная миграция 2600 летнего периода истории в 5 минутах: познавательная визуализация

Все дороги ведут в Рим — так было когда-то. Сейчас дороги ведут во многие места, и люди более-менее свободно путешествуют по миру, с целью обретения либо второй родины, либо просто места для комфортной жизни.

Maximilian Schich, историк из Техасского Университета в Далласе, использовал данные огромной базы данных Freebase для поиска путей миграции 120 тысяч человек, мыслителей, ученых, представителей культуры, с древних времен по наши дни.

Читать полностью »

callidus77: Помница в нашей сетке монтажники подключали абонента. Пришли, воткнули сетевуху, а у него Фря и дров нету. Почесали головы и ушли. Чел через три недели наконец-то коннектится.
Грят: «Долго ж ты искал дрова.»
Он: «Я не искал. Я их сам написал.» Баш

Наверное, каждый автор трепетно следит за судьбой своих статей, такому автору на хабре всегда чего-то не хватает. Мне всегда не хватало инструментов наблюдения за статьями — поэтому я и решил их написать.
Пульс Хабра

Под катом мы разберемся с основными инструментами ресурса и потенциальной возможностью применения. Весь инструментарий доступен по адресу http://www.habr-analytics.com, исходный код (основные функции) на github. За примерами и деталями — добро пожаловать под кат!

Структура статьи

  1. Пульс Хабра
  2. Монитор статей
  3. Анализ пользователей
  4. Пересечение хабов — диаграммы Венна
  5. Аудитория хабов
  6. Исходный код и структура проекта
  7. Заключение

*Осторожно трафик*

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js