Алгоритм определения естественности информационного всплеска

в 17:44, , рубрики: Поисковые машины и технологии, поисковые системы, метки:

image

Прототип алгоритма определения происхождения информационного всплеска.


Рассмотрим частоту вхождения нормального (естественного) события (новости) в каналы коммуникаций:

  1. Появления события (новость, рекламное сообщение, публикация статьи). X(initial) = 1
  2. Если событие достаточно интересно то происходит его естественное размножение (плавный рост)
  3. Частота цитирования достигает пика
  4. После пика происходит плавный спад частоты цитирования данного события.

В данном случае график частоты цитирования будет иметь вид нормального распределения (гауссианы)
image

Теперь рассмотрим частоту вхождения искусственного вброса информации (новости):

  1. Появление события (новости). Возможно появления сразу в нескольких источниках (Информационных агентствах). X(initial) > 1
  2. Стремительное размножение события, подогреваемое множественными вбросами.
  3. Частота цитирования достигает пика и продолжает держаться, благодаря искусственному и постоянному подогреву интереса к событию.
  4. После окончания акции (вброса, раскрутки, накрутки) происходит стремительный спад цитирования данного события.

Данный график будет отличаться от нормального распределения (гауссианы): кривая роста будет более крутая, начальные значения могут быть больше единицы (X(initial) > 1), на месте пика будет наблюдаться плато.
image

image

Таким образом, анализируя зависимость частоты вхождения события в информационное пространство, можно получить характеристику его происхождения. Тем самым реализуется ранжирование события по его происхождению.

Интересные ссылки

Нормальное распределение
PageRank
Кластерный анализ

Автор: shrimo

Источник

Поделиться