- PVSM.RU - https://www.pvsm.ru -
Задачей исследования является визуализация дуплицированности главных страниц доменов по пятисловным шинглам в рамках общей базы.
На ответивших контентом страницах найдено 588,086,318 шинглов.
Складываем каждый шингл с дополнительной информацией в датасет top1m_shingles:
shingle,domain,position,count_on_page
SELECT
shingle,
COUNT(shingle) cnt
FROM
top1m_shingles
GROUP BY
shingle
На выходе имеем таблицу shingle_w из 476,380,752 уникальных n-грамм с весами.
Дописываем вес шингла в рамках базы к исходному датасету:
SELECT
shingle,
domain,
position,
count_on_page,
b.cnt count_on_base
FROM
top1m_shingles AS a
JOIN
shingles_w AS b
ON
a.shingle = b.shingle
Если получившийся датасет сгруппировать по документам (доменам) и сконкатить значения n-грамм и позиций, получим развесованную табличку для каждого домена.
Обогащаем on_page показателями, средними, рассчитываем UNIQ RATIO для каждого документа (как соотношение количества уникальных шинглов в рамках базы к не уникальным), выводим n-граммы, генерируем страничку [2]:
Отчёт доступен по адресу: data.statoperator.com/report/habrahabr.ru [2] и содержит полную таблицу с текстами шиглов и их значениями. Шинглы изначально не отсортированы. Если хочется просмотреть их в том порядке, в котором они шли в документе — сортните таблицу по позиции. Или по частоте в базе, как на изображении:
Меняем домен в урле или вводим в форме поиска и смотрим отчёт.
Интересно взглянуть на новостные сайты: data.statoperator.com/report/lenta.ru [3]
Сбор данных: 2016-07-21
Дата генерации отчёта: 2016-07-27
Автор: daocrawler
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/data-mining/168587
Ссылки в тексте:
[1] Image: https://habrahabr.ru/post/307250/
[2] страничку: http://data.statoperator.com/report/habrahabr.ru/
[3] data.statoperator.com/report/lenta.ru: http://data.statoperator.com/report/lenta.ru/
[4] Источник: https://habrahabr.ru/post/307250/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best
Нажмите здесь для печати.