Хабрафильтр — RSS хабрапостов с настраиваемым трешолдом

в 7:00, , рубрики: rss, хабрахабр, я пиарюсь, метки: ,

У меня есть проблема. Я хочу читать только лучшие посты Хабра, но не могу добиться этого доступными средствами.

Я привык читать интересующие меня источники через Google Reader, и я могу добавить туда фид Хабра. Но проблема в том, что я не хочу читать всё, что публикуется, поток слишком большой. Да, можно настроить ленту, убрав неинтересные темы, но проблема не в тематике. Я хочу читать только лучшие посты, один-два поста в сутки без ограничений на тематку. Сейчас возможности наастроить rss-фид по трешолду рейтинга нет, а раздел «Лучшие за сутки» заставляет ходить на сайт каждый день, неудобно.

Хабрафильтр решает мою проблему. Робот регулярно скачивает rss «захабренных», запоминает дату публикации, и через трое суток, когда голосование замораживается и рейтинг становится доступен, приходит в пост и сохраняет рейтинг и все остальные числовые характеристики поста. В итоге в генерируемый фид попадают посты как минимум трёхдневной давности, удовлетворяющие заданным значениям рейтинга, или количества добавлений в избранное. К счастью, меня не интересует свежесть поста, посты с хорошим рейтингом или большим количеством добавлений в избранное обычно находятся вне времени.

Можно задавать как относительные, так и абсолютные пороговые значения. Например, habrafilter.ru/feed/percentile/95/small — это фид с постами, которые имеют рейтинг или количество добавлений в избранное не ниже, чем 95-перцентиль выборки за последний месяц. Это порядка 5-6 постов в сутки. Другой вариант: habrafilter.ru/feed/fav/700/small — посты, добавленные в избранное более 700 раз, на данный момент это примерно десяток постов за месяц. Пока что доступны только фиды для рейтинга и количества добавлений в избранное. Недавно на Хабре появилась важная характеристика — количество просмотров поста. Есть ещё количество комментариев — мера резонансности поста. Возможно, стоит сделать фиды по этим величинам тоже.

Может быть, стоит ввести какие-то интегральные величины, например евклидово расстояние по 4 координатам («рейтинг», «количество добавлений в избранное», «количество просмотров», «количество комментариев»). Я пока что не делал этого, не уверен что это хорошая метрика.

Некоторые популярные фиды я планирую вытащить в твиттер. Пока что это только twitter.com/habrafilter95 — топ 5% или twitter.com/habrafilter99 — топ 1% по рейтингу или количеству добавлений в избранное. Технически, ничего не мешает мне вытащить в отдельный твиттер аккаунт любой другой фид, но прежде подожду ваших пожеланий и предложений.

Автор: flashface

Поделиться

* - обязательные к заполнению поля