- PVSM.RU - https://www.pvsm.ru -
Исследовательская команда Google опубликовала на arXiv.org статью "Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources [1]", в которой рассматривается вопрос вычисления для определённой веб-страницы специальной репутационной характеристики Knowledge-Based Trust (KBT). Планируется, что KBT должна стать основой для будущего алгоритма поисковой машины Google, выстраивающей сайты в соответствии с их «надёжностью».
Известно, что алгоритм ссылочного ранжирования PageRank [2] определяет важность веб-страницы как число ссылок, ведущих на неё. Реальный поиск Google учитывает ещё множество факторов, таких как наличие определённых слов на страницах сайтов, актуальность информации, местоположение пользователя, адаптивность к мобильным устройствам — всего таких факторов около 200. Считается, что обновление поискового алгоритма в сентябре 2013 года, известное как «Колибри» (Hummingbird), научило Google реагировать не только на ключевые слова, а и на контексты и образы, их сопровождающие. Прошлогоднее обновление алгоритма «Голубь» (Pigeon) привело к более релевантным результатам поиска с географически зависимой информацией.
Новый подход к ранжированию сайтов рассматривает важность веб-страницы как числовую характеристику достоверности фактов. Как и раньше, поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault. Эта база знаний, принадлежащая Google, сейчас содержит примерно 1.6 миллиарда фактов, автоматически собранных из интернета. Её главное отличие от более известной Knowledge Graph заключается в её «всеядности». Если Knowledge Graph использует в качестве источника информации заведомо надёжные Wikipedia и Freebase, то Vault «не брезгует» ничем и собирает информацию с абсолютно всех сайтов, из которых можно извлечь хотя бы что-то. На основе числа совпадений «извлечённых» фактов с хранящимися в Google Vault, и определяется достоверность ресурса.
На тестовых данных вероятностная модель, предложенная авторами работы, показала удовлетворительные результаты. Затем в автоматическом режиме были вычислены показатели KBT для 119 миллионов реальных веб-страниц. Дальнейшая проверка в ручном режиме показала, что и реальные данные вполне поддаются новой системе ранжирования. Как скоро результаты исследования затронут существующий поисковый алгоритм Google пока что неизвестно.
Автор: jeston
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/google/84382
Ссылки в тексте:
[1] Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources: http://arxiv.org/abs/1502.03519v1
[2] PageRank: http://infolab.stanford.edu/~backrub/google.html
[3] Источник: http://geektimes.ru/post/246596/
Нажмите здесь для печати.