Рубрика «Статистика в IT» - 51

Какая часть веба заархивирована

Машина времени Internet Archive — самый большой и известный архив, который сохраняет веб-страницы с 1995 года. Кроме него существует с десяток других сервисов, которые тоже архивируют веб: это индексы поисковых систем и узкоспециализированные архивы вроде Archive-It, UK Web Archive, Web Cite, ArchiefWeb, Diigo и др. Интересно узнать, как много веб-страниц попадает в эти архивы, относительно общего числа документов в интернете?

Известно, что база Internet Archive за 2011 год содержит более 2,7 миллиарда URI, многие из них в нескольких копиях, сделанный в разные моменты времени. Например, главную страницу Хабра «сфотографировали» уже 518 раз, начиная с 3 июля 2006 года.

Известно также и то, что база ссылок Google пять лет назад перешагнула отметку в триллион уникальных URL, хотя многие документы там дублируются. Компания Google не в силах проанализировать все URL, так что компания решила считать количество документов в интернете бесконечным.
Читать полностью »

Очевидно, торрент прочно вошёл в жизнь многих пользователей интернета.
37 миллионов пользователей TPB в данный момент стоят на раздаче, а ещё год назад количество активных пользователей программы μTorrent превысило 100 миллионов человек.

Rutracker.org предоставляет открытую статистику по скачавшим и действующим сидерам/личерам.
Я бегло проанализировал её и увидел, что в среднем на 100 скачавших есть всего лишь 1 раздающий.

Вы остаётесь на раздаче?
Читать полностью »

Терминология

Для начала определимся с терминологией.
Sku (Stock-keeping unit) — это номер, код или какой-либо другой идентификатор уникального товарного продукта в розничных сетях/магазинах. На постсоветском пространстве это понятие немного адаптировалось и под ним начали понимать уже не сам идентификатор, а описание этой товарной позиции (Например типичным Sku наших розничных сетей является: «Батончик шоколадный 50г Марс»). А для каждого такого Sku ставят в соответствие артикул.

Проблемы

В чем собственно проблема?
Проблемы возникают когда необходимо получить информацию не по конкретным розничным сетям или магазинам, а по регионам, странам или в целом продажи этого продукта.
Проблемы:

  • Каждая розничная сеть использует свои уникальные Sku и артикулы;
  • Sku некоторых сетей достаточно сильно сжимаются для экономии места на чеках, что затрудняет идентификацию товарной позиции (Пример: «К.КгВафВеселЖуравРош»);
  • Периодически возникает необходимость получить продажи не по конкретным товарным позициям, а по товарным группам (Например: «Шоколадные батончики»), тогда даже полноценные красивые Sku нам ничем не помогут.

Если вам интересно как мы пытались автоматизировать процесс свода товарных справочников разных розничных сетей — добро пожаловать под кат.
Читать полностью »

Может это и есть конец света? :) Но победитель долгих дискуссий о том, что удобно пользователям — браузер или отдельные приложения, кажется стал очевидным.

Я попытался собрать в одном месте результаты исследований ведущих компаний, чтобы каждый из нас мог ответить на вопрос — нужно ли делать отдельное приложение для платформ, если уже есть сайт. Давайте посмотрим.

image Читать полностью »

Введение

Сейчас практически невозможно представить себе мир без параллельных вычислений. Параллелят все и вся, даже у мобильных телефонов теперь несколько ядер, а значит… ну вы понимаете. Но давайте поговорим не о мобильных приложениях, а о более полезных и интересных вещах. О машинном обучении. Тема тоже модная, разрекламированная, про машинное обучение слышали даже домохозяйки и только ленивый еще не трогал это руками. Для машинного обучения, и если быть более точным, для статистических расчетов есть множество разных фреймворков, на мой вкус лучший из них – R (да простят меня поклонники Octave). И речь пойдет именно о нем.

Disclaimer:
я не претендую на особую строгость изложения, моя задача донести до читателей общую мысль.
Читать полностью »

Этот месяц богат содержательными отчётами (в частности, о трендах в сети, и будущем мобильных платформ ). Теперь, как раз в тему, Opera выпустила свежий отчет State of Web (предыдущий выходил в апреле), где рассказывает об использовании интернета с мобильных устройств, и включает список 10 самых популярных сайтов для большинства европейских стран.

Предпочтения мобильных пользователей разных стран совершенно не совпадают. В целом, в Европе более всего популярны новостные сайты (23 из 35 стран), а затем уже идут поисковики. Румыния и Испания более всего помешаны на спорте (но более всего мобильных спортивных фанатов — на Кипре). Кроме того, в десятке самых популярных:

  • Франция, Бельния, Италия и Македония: порталы для женщин;
  • Австрия, Болгария, Дания, Финляндия и Греция: прогнозы погоды;
  • Швеция: Больше всего любят новости, развлечения, покупки и объявления;
  • Финляндия и Болгария: сайты для молодых родителей;
  • Германия: Кулинарные рецепты.

Читать полностью »

Ключ к успеху при разработке free-to-play игр — анализ поведения игроков и постоянный тюнинг игрового функционала на основе статистики. Собрать статистику — это пол дела. Но как превратить гору сырых данных в информацию?

В моей прошлой статье я перечислила основные показатели, по которым можно отслеживать успешность игры. Во второй части цикла я сделаю обзор основных инструментов, которые помогут превратить данные в руководство к действию.Читать полностью »

На написание данной статьи меня сподвиг следующий топик: В поисках идеального поста, или загадки хабра. Дело в том, что после ознакомления с языком R я крайне искоса смотрю на любые попытки, что-то посчитать в экселе. Но надо признать, что и с R я познакомился лишь неделю назад.

Цель: Собрать средствами языка R данные с любимого HabraHabr'а и провести, собственно то, для чего и был создан язык R, а именно: статистический анализ.

Итак, прочтя этот топик вы узнаете:

  • Как можно использовать R для извлечения данных из Web ресурсов
  • Как преобразовывать данные для последующего анализа
  • Какие ресурсы крайне рекомендуются к прочтению всем желающим познакомиться с R поближе

Ожидается, что читатель достаточно самостоятелен, чтобы самому ознакомиться с основными конструкциями языка. Для этого как никак лучше подойдут ссылки в конце статьи.

Читать полностью »

Попробуй R

С утра я обнаружил у себя в почте приятный предновогодний сюрприз: Code School в коллаборации с O'Reilly выпустили бесплатный курс по языку R.

Курс выполнен в традициях Code School, т.е. его запросто можно пройти в браузере за пару-другую перерывов на кофе.
Читать полностью »

image

На днях App Annie опубликовала свежую статистику по анализу мобильного рынка приложений за последние восемь месяцев. Об увеличении выручки с Google Play на 311%, росте прибыли с восточного региона и доминировании азиатских паблишеров в мировом топе кассовых издателей читайте ниже (с полным переводом отчета можно ознакомиться на сайте App2Top.ru).Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js