Измеряем динамику упоминания сущностей в информационном поле

в 10:55, , рубрики: big data, data mining, information retrieval, statoperator, text mining, web crawling, визуализация данных, открытые данные, Регулярные выражения

Измеряем динамику упоминания сущностей в информационном поле - 1

Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.

Подробнее о том, что здесь происходит

Мы занимаемся изучением сети интернет, в частности, имеем возможность за день обходить все зарегистрированные домены мира по мордам и обрабатывать информацию. Продукт достаточно сложный и в целом для популяризации изучения открытых данных мы запустили инстанст, который сканирует ежедневно топ 1 миллион сайтов мира по версии Алексы, обсчитывает контент по 300+ регуляркам и выводит показатели на дашборд.

Нам хотелось бы поговорить о корпусе интернета, пообщаться с такими же как и мы людьми из мира IT о мониторинге информационного поля, найти единомышленников в конце концов. Для понимания интереса аудитории ранее была опубликована статья, результаты опроса которой нас не могли не обрадовать:

Измеряем динамику упоминания сущностей в информационном поле - 2

Несмотря на откровенно жёлтый заголовок (каюсь) статья получила достаточно неплохую оценку, но главное:

  • 191 (52%) — однозначно заявили о своём желании провести исследование
  • 123 (34%) — мы записали вас в свою банду
  • 53 (14%) — ок, но вы заходите, если что

ЦА — 314 пользователей хабра, мы не могли оставить вас без внимания и пошли пилить дашборд под эту дискотеку. Дашборд мы разместили на сайте и теперь готовы предложить вам на протяжении месяца исследовать корпус. Чтобы замеряя свои собственные показатели, вам было с чем их сравнить — мы выложили в открытый доступ данные по имеющимся сущностям в динамике за пару месяцев.

Процесс

  • инстанс ежедневно, в течение месяца, в 19:00 по МСК будет обходить список сайтов топ 1,000,000 (за час)
  • каждый успешный ответ веб-сервера разбирается всеми теми регулярками по сущностям, которые вы сейчас видите в легенде + те, которые добавите сами

Показатели читательов мы вынесем в отдельную категорию дашборда и все их можно будет отобразить на основном графике вместе с другими. Все показатели и настройки при работе в дашборде прокидываются в урл.

Как добавить регулярку?

Для этого достаточно написать в комментарий к статье следующую информацию:

1) Тип регулярки: count/boolean (количество того, что находится в документе по регулярке/было что-то найдено или нет)
2) Где искать? header/html/text (в хедере ответа веб-сервера/в коде html/в выделенном из документа тексте)
3) Регулярка. Тестировать удобно здесь. Пожалуйста, составляйте регулярки учитывая тот факт, что каждая из них потенциально будет выполнена на 30 миллионах документов, берегите CPU, рассчитываем мы на потолок из 314 регулярок по одной на каждого, кто отметился в опросе.
4) Описание того, что вы измеряете

Все адекватные регулярки появятся дашборде после очередной итерации.

Автор: daocrawler

Источник

Поделиться

* - обязательные к заполнению поля