- PVSM.RU - https://www.pvsm.ru -

Про социальный поиск без картинок

В чем идея?

Обработать ссылки, выданные поисковиком на предмет упоминания в социальных сетях, приложить немного математики и выстроить их в несколько ином порядке чем предлагает гугл. В основе изначально лежал алгоритм по которому высчитывает свои тренды reddit.com [1]. На самом деле алгоритм достаточно заезжен и многократно описан, но в то же время реально работающий. Проблем состояла в том, что он основан на плюсах и минусах, а у нас изначально только плюсы, то есть мы обладаем только лайками и твитами. Поэтому минусы я заменил количеством посетителей сайта. Идея, если сильно утрировать, примерно та же: количество посетителей минус лайки и чем меньше полученная цифра тем выше ее статус.

За основу взял поисковую выдачу Google и Bing. В качестве социальной составляющей Facebook и Twitter (хотелось бы больше участников, но у других что то совсем плохо с API). В качестве количества посетителей API Alexa.

Далее берем упомянутую выше формулу и прогоняем каждую полученную ссылку с поисковика через нее:

image

Где:
P = количество посетителей домена (Alexa)
n = социальный граф (facebook_like_count + twitter_count)
z-a/2 = это квантиль [2] (я его взял равным 1.3)

Глупо было бы не использовать алгоритмы ранжирования непосредственно самих поисковиков. Поэтому полученный результат еще поделил на поисковый коэффициент который высчитывается предельно просто:

google+bing

Далее следует просто отсортировать полученные результаты и вывести на пользователя (я решил выводить только первые 15 результатов)

За вечер закодил, запустил, посмотрел и решил, что это должны увидеть и за пределами localhost. В принципе результаты в какой то мере были ожидаемы. Я всегда догадывался, что SEO не останавливается на достигнутом, но что лайки могут внести такой диссонанс в выдачу я не ожидал.

Так что же получилось?

Получилось то, что ожидалось и хотелось получить. То есть, если вы ищите квартиру в Москве, то и там и там вы увидите риэлторские канторы. Но в первом случае впереди будут те в которых чаще упоминается недвижимость, а во втором случае те на которые больше лайков и твитов. Результаты с публичными личностями тоже воодушевляют, негатив народ явно любит больше.

Результаты работы можно увидеть на www.mfrsc.com [3]. Предвкушая вопрос сразу отвечу эти буквы ни чего не значат. Просто при регистрации домена случайным образом были набраны 5 букв и к счастью домен оказался свободен.

С какими проблемами вы можете столкнутся?

Возможны баги, эксепшены и перебои(тормоза) с хостингом [4]. В IE не работает. Ну и сами понимает, что работает гораздо медленней гугла по понятным причинам.

Послесловие.

Я упоминал в начале, что весьма интересуюсь всякими социальными штуками. На днях мне попалось одно видео с лекцией и мне бы очень хотелось проверить озвученную там теорию. Вы наверно заметили вверху кнопку addthis, по возможности используйте только ее для расшаривания. А я попробую либо подтвердить либо опровергнуть эту теорию. Результат с исследованием о влиянии лайков на социум обещаю выложить здесь.

За лайки отдельная благодарность.

UPD.

К сожалению я навряд ли смогу ответить в комментариях на вопросы в связи с полным отсутствием более менее внятного статуса (пишу из песочницы). Поэтому позже постараюсь ответить отдельным текстом на ваши вопросы которые прозвучат.

UPD2.

Я был бы благодарен за донайт. Поверьте не наживы ради. Просто боюсь, что API алексы [5] могу не потянуть материально.

Автор: neegor


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/facebook/7666

Ссылки в тексте:

[1] reddit.com: http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

[2] квантиль: http://en.wikipedia.org/wiki/Quantile

[3] www.mfrsc.com: http://www.mfrsc.com/

[4] хостингом: https://www.reg.ru/?rlink=reflink-717

[5] API алексы: http://aws.amazon.com/awis/#pricing