Рубрика «рекомендательные системы» - 8

Сегодня я расскажу о том, как можно использовать данные о пользователях из социальных сетей для рекомендаций веб-страниц на холодном старте. Все приведенные в статье результаты носят чисто экспериментальный характер и в настоящий момент мы не реализованы в продакшене. Здесь, как и в прошлой статье, будут использоваться элементы текстмайнига для анализа текстового контента веб-страниц.

Сначала немного статистики для того, чтобы показать важность настоящего исследования. Около 50% пользователей нашей системы регистрируются с привязкой аккаунтов социальных сетей vkontakte (VK) и facebook (FB). Причем из зарегистрированных через социальные сети 71% приходится на VK и 29% на FB.

API FB и API VK позволяют извлекать некоторые данные об интересах и предпочтениях пользователя. Но не все так просто, как может показаться. Для получения данных пользователя нужно получить особые права, согласие на которые дает сам пользователь при регистрации в системе. Здесь возникает тонкий момент. С одной стороны, мы ходим вытянуть как можно больше информации о пользователе. С другой стороны, просить слишком много прав — наглость, которая может отпугнуть пользователя. Нужно найти компромисс — тонкое равновесие между полезностью получаемых данных для улучшения рекомендаций и «суммой» кредита доверия от пользователя, который соглашается, чтобы мы залезли в его персональные данные.
Читать полностью »

В прошлый раз мы рассмотрели общую постановку задачи о многоруких бандитах, обсудили, зачем это может быть нужно, и привели один очень простой, но эффективный алгоритм. Сегодня я расскажу о ещё одной модели, которая эффективна в ситуациях, когда ожидаемые доходы от бандитов меняются со временем, да и само число и состав «ручек» может меняться – о динамической гамма-пуассоновской модели.

Многорукие бандиты: модель dynamic Gamma Poisson
Читать полностью »

Это первый пост из блога Surfingbird, который я выношу в общие хабы алгоритмов и искусственного интеллекта; честно говоря, раньше просто не догадался. Если интересно, заходите к нам, чтобы прочесть предыдущие тексты, – я не знаю, что произойдёт, если просто добавить новые хабы к постам несколькомесячной давности.

Краткое содержание предыдущих серий о рекомендательных системах:

В этот раз начинаем новую тему – о многоруких бандитах. Бандиты – это самая простая, но от этого только более важная постановка задачи в так называемом обучении с подкреплением

Многорукие бандиты: введение и алгоритм UCB1
Читать полностью »

Каркас

Я часто размышляю над тем, чего не хватает в интернете. И вот в моей голове зародилась мысль. А что если бы в интернете появилась рекомендательная система на основе ссылок? Объясняю принцип функционирования сервиса: на сервисе регистрируется пользователь по email или входит при помощи социальных сервисов, openid или же пользуется входом на сайт сервисом типа логинза, пользователь расшаривает(добавляет в базу данных сервиса) ссылки которые указывают на понравившийся ему контент(или просто в дежурном порядке добавляет найденные им ссылки в базу), далее Читать полностью »

В последнее время на хабре было немало статей про персонализацию и рекомендательные системы. Вообще, это направление кажется одним из наиболее перспективных в анализе данных. Его элементы уже сейчас активно используются, например, в поиске (по некоторым запросам выдача для разных пользователей будет разной) и рекламе (Директ, AdSense). Однако исторически одной из первых областей применения был Amazon, который в начале 2000-х годов разработал и внедрил простейшую рекомендательную систему, основанную на принципах «Посоветовать товар, который другие пользователи, купившие такой же товар, как и данный покупатель, купили». Собственно, отсюда и растут ноги у одного из блоков рекомендаций на Амазоне — «What Other Items Do Customers Buy After Viewing This Item?». Разумеется, сейчас под этой вывеской показываются результаты работы гораздо более хитроумного алгоритма.
* Для публикации в хаб «Я пиарюсь» не хватает кармы, поэтому публикую в релевантный тематике хаб.
Читать полностью »

В прошлый раз я рассказывал о теореме Байеса и приводил простой пример – наивный байесовский классификатор. В этот раз мы перейдём к более сложной теме, которая развивает и продолжает дело наивного байеса: мы научимся выделять темы при помощи модели LDA (latent Dirichlet allocation), а также применим это к рекомендательным системам.

Рекомендательные системы: LDA
Читать полностью »

В этой части мы не будем говорить о рекомендательных системах как таковых. Вместо этого мы отдельно сконцентрируемся на главном инструменте машинного обучения — теореме Байеса — и рассмотрим один простой пример её применения — наивный байесовский классификатор. Disclaimer: знакомому с предметом читателю я вряд ли тут сообщу что-то новое, поговорим в основном о базовой философии машинного обучения.

image
Читать полностью »

image

Недавно наткнулся на новомодный тренд: рекомендательные системы, — на конкретного его представителя Surfingbird (нет, я не сотрудник данной компании). Сразу встал вопрос, как я могу на этом заработать, не стоит ли готовиться к очередной смене схемы поведения пользователей в сети?

Почему так серьезно?

Читать полностью »

26 апреля стартовал конкурс рекомендательных систем Million Song Dataset Challenge. Завершение — через три месяца, 9 августа. В ходе конкурса нужно построить систему, которая по 100% истории прослушивания музыки для 1М пользователей и 50% истории для 100К пользователей сможет максимально точно достроить недостающие 50%. При этом доступны не только данные по прослушиванию, но и обширная база метаданных и даных по контенту от The EchoNest, MusicXMatch и Last.fm. При желании можно пользоваться любыми другими данными (у многих других музыкальных сервисов есть API, через который можно выудить ценную информацию).

Организаторы — CAL UCSD, LabROSA CU, IMIRSEL и UIUC.

Как такового приза у конкурса нет, но компания Zvooq решила сделать его чуть более интересным для российских участников. Лучшая команда из России (вне зависимости от абсолютного места) получит $5000 и возможность бесплатно отправить одного участника на ISMIR 2012.

Условия получения этого бонуса — все участники команды должны проживать в РФ, должно быть опубликовано описание используемого подхода (например, на Хабре или arxiv.org), команда должна заявить о себе на challenge@zvooq.com.

Читать полностью »

В предыдущих сериях мы обсудили, что такое сингулярное разложение (SVD), и сформулировали модель сингулярного разложения с базовыми предикторами. В прошлый раз мы уже довели дело до конкретных формул апдейта. Сегодня я продемонстрирую очень простую реализацию очень простой модели, мы применим её к уже знакомой матрице рейтингов, а потом обсудим, какие получились результаты.
Рекомендательные системы: SVD на perl

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js