Рубрика «веб-аналитика»

Предыстория

Появилась задача собрать данные по 2000+ youtube видео, из которых необходимо было извлечь название видео, канала и язык.

Функция IMPORTXML, с помощью которой можно выполнять парсинг с сайтов, — не помогла, поскольку, как оказалось в дальнейшем, youtube хранит данные в JSON файлах. Перебирать руками такое количество видео не хотелось и я начал искать способы как автоматизировать или хотя бы упростить эту задачу.
Читать полностью »

Привет! Предлагаю вашему вниманию перевод статьи "The Dangers of Overpersonalization" авторов Kim Flaherty и Kate Moran.

Итог: Излишняя персонализация контента приводит к однородному и безразличному восприятию пользователем информации и может вызывать усталость от вашего продукта в целом.

image

Читать полностью »

Привет.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра - 1

Также посмотрим облако статей Хабра за все годы.

Кому интересно, что получилось, прошу под кат.
Читать полностью »

В первой части были рассмотрены некоторые закономерности развития такого интересного ресурса, как habrahabr. Материал получился длинный, так что продолжение здесь. В этой части мы заодно посмотрим как строить такие картинки, и наконец, завершим нашу статистику и рейтинг.
Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 2-2 - 1

Кому интересны результаты, прошу под кат.Читать полностью »

После публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2 - 1

Рейтинги, статистика и немного исходного кода на Python под катом.Читать полностью »

В недавней публикации подборки лучших статей за 2018й год было высказано пожелание увидеть такой же список за год 2017. В принципе, неплохая идея — практически все опубликованное тогда, актуально и сейчас. Обработка данных закончена, да и выходные еще не истекли, так что желающим будет что почитать в воскресный вечер.

Хабрарейтинг 2017: лучшие материалы за 2017 год - 1

Кому интересны результаты, прошу под катЧитать полностью »

Данный пост является логическим завершением публикаций про жизненный цикл статьи на Хабре (первая и вторая части), в результате чего был сделан достаточно интересный инструмент для статистического анализа. Методика оказалась весьма полезной, и позволяет находить статьи по различным параметрам, например, статьи с самым высоким «качеством» (соотношением рейтинга к числу просмотров), самые «спорные» статьи, у которых больше всего полярных комментариев, самые комментируемые материалы, и пр.
Хабрарейтинг 2018: лучшие материалы за 2018 год - 1

Пора теперь извлечь из этого какую-то пользу, и составить статистический рейтинг статей за 2018 год. В идеале это хорошо было бы сделать к началу Нового Года, но умные мысли бывает, приходят с запозданием. Но лучше поздно чем никогда, это позволит перечитать какие-то полезные статьи тем, кто пропустил их в свое время. И небольшой «секретный бонус» в конце текста для тех, кто будет достаточно любопытен.

Тех, кому интересно что получилось, прошу под кат.
Читать полностью »

Привет!

Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?

Жизненный цикл статьи на Хабре: пишем хабрапарсер - 1

Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

Тех кому интересно, что из этого получилось, прошу под кат.Читать полностью »

Коллтрекинг без затрат - 1

Если больше 30% продаж/лидов начинаются по телефону, коллтрекинг просто необходим. Ведь он позволяет оценить эффективность каналов рекламы, а значит уменьшить затраты и увеличить продажи.

Но почему не все это используют? Дорого. Мелкому и среднему бизнесу часто не выгодна такая аналитика. Но есть выход и для них — бесплатный коллтрекинг. Ниже описываем как его установить и настроить.
Читать полностью »

При анализе цепочек рекламных каналов некоторые достаточно простые, но полезные идеи проскакивают незамеченными. Хорошо знакомые с математикой аналитики сразу стремятся погрузиться машинное обучение, а  далекие от математики аналитики вообще не очень понимают, куда и как смотреть в отрыве от стандартных отчетов Google Analytics.

В то же время такая достаточно банальная вещь как распределение длин цепочек атрибуции за период может рассказать весьма красноречивые вещи, причем не только об эффективности вашей рекламы.

В данной статье я покажу, как по этому распределению:

  1. Выделить среди переходящих по рекламным каналам тех пользователей, кто реагирует на рекламу;
  2. Оценить эффективность влияния вашей рекламной кампании на эту группу;
  3. Оценить как бы реагировали на ваш товар люди, если бы знали про него все, что вы хотели им сообщить;
  4. Оценить оптимальную с точки зрения уровня конверсии частоту показа рекламных объявлений.

Нетривиальные метрики эффективности рекламных кампаний - 1


Читать полностью »