People meet recommender systems. Factorization

Машинное обучение довольно сильно проникло в нашу обыденную жизнь. Некоторые уже не удивляются, когда им рассказывают про нейронные сети в их смартфонах. Одной из больших областей в этой науке являются рекомендательные системы. Они есть везде: когда вы слушаете музыку, читаете книги, смотрите сериалы или видео. Развитие этой науки происходит в компаниях гигантах, таких как YouTube ^[1], Spotify ^[2] и Netfilx ^[3]. Конечно же, все научные достижения в этой области публикуются как на известных конференциях NeurIPS ^[4] или ICML ^[5], так и на чуть менее известной RecSys ^[6], заточенной на эту тематику. И в этой статье мы поговорим, как развивалась эта наука, какие методы применяются в рекомендациях тогда и сейчас и какая математика за всем этим стоит.

People meet recommender systems. Factorization - 1

На написание данной статьи меня вдохновила работа в лаборатории StatML ^[7] в Skoltech ^[8], связанная с рекомендательными системами.

Зачем и для кого эта статья

Почему это может быть важно для каждого из нас? Посмотрите на представленный список:

Рекомендации видео: YouTube, Netlix, HBO, Amazon Prime, Disney+, Hulu, Окко
Рекомендации аудио: Spotify, Яндекс.Музыка, Яндекс.Радио, Apple Music
Рекомендации товаров: Amazon, Avito, LitRes, MyBook
Рекомендации в поиске: Google, Yandex, Bing, Yahoo, Mail
Остальные рекомендации: Booking, Twitter, Instagram, Яндекс.Дзен, Вконтакте, GitHub

Наверняка вы нашли один из сервисов, которым активно пользуетесь. Для меня важно, всегда заглядывать под капот машины и узнавать, как она устроена. Поэтому мне интересно знать, что происходит, когда мне рекомендуют новое видео в YouTube.

В интернете можно встретить хорошие статьи на эту тему (например ^[9] от компании Яндекс), но порой люди говорят об одном и том же разными словами и возникает много путаницы. Кроме этого, существует очень мало мест, где можно найти весь зверинец моделей сразу. Поэтому я разобрался со всеми алгоритмами, и расскажу вам про них простыми словами (или не очень). Во-первых, фокус здесь будет направлен на математическую составляющую рекомендательных систем. И, во-вторых, это статья будет нацелена в большой степени на людей, которые имеют какое-то представление о машинном обучении. Но я надеюсь, что она будет полезна и новичкам. И конечно же, данный материал будет содержать формулы, поэтому я предполагаю, что у читателя есть некоторое представление о линейной алгебре, математическом анализе и теории оптимизации.

В реальности, конечно, все модели, о которых мы поговорим, являются лишь частью чего-то большего. Обычно используют огромные сборные модели со своей логикой, которая очень зависит от типов данных (кино, музыка, еда, одежда и т.д.). Например, есть интересная статья ^[10] про такую систему.

Постановка задачи

Как и в любой другой задаче машинного обучения, задаче рекомендательной системы нужны обучающие данные. Для этого введем два множества: $U$ и $I$ — множества пользователей и товаров. А целевой переменной $r_{ui}$ будем считать результат взаимодействия пользователя $u$ и товара $i$ . К примеру, это может быть рейтинг фильма, который поставил пользователь, или же покупка товара, или добавление его в избранное. В итоге обучающей выборкой будет являться такое множество:

$mathcal{D}={ (u, i) |text{ if } exists r_{ui}, u in U, i in I}$

А нашей задачей будет являться восстановить зависимость и найти такую функцию $f$ :

$f(u, i)=hat{r}_{ui}approx r_{ui}$

Чтобы было ясно, $r_{ui}$ может быть целом числом от 1 до 5 (оценка от пользователя) или бинарной величиной: 1 или -1 (понравилось / не понравилось)

Виды рекомендательных систем

В литературе условно все методы делят на 3 типа:

Content-based (CB)
Collaborative filtering (CF)
Hybrid recommendations

People meet recommender systems. Factorization - 11

Контентные рекомендации берут всю информацию о товаре и пытаются найти похожий. Простой пример — мне понравилась комедия с Джимом Кери, поэтому мне порекомендовали другую комедию с этим актером. Признаки товаром могут быть разнообразны: для песни — сама его музыкальная дорожка, для товара в магазине — его фотография, параметры и характеристики. Чаще всего такие рекомендации тривиальны и их сможет повторить любой из нас. В таких моделях, мы так же можем использовать информацию о пользователе: пол, возраст и т.д.

Коллаборативная фильтрация не использует никакую информацию о товаре или пользователе, а строит свои рекомендации лишь на истории оценок. Ее главная задача найти какие-то скрытые связи там, где их нельзя найти обычному человеку.

А гибридные рекомендательные системы объединяют эти два подхода в себе. Практически все модели, которые используются в реальном мире, включают в себе помимо историй рекомендаций, еще и дополнительное знание о товарах и пользователях.

Поскольку материала оказалось очень много, я условно разделили все методы на Факторизационные, Графовые и Нейросетевые. В этой статье мы поговорим про первые из них. Отмечу, что в основном речь пойдет именно о коллаборативной фильтрации, но попутно я буду рассказывать про улучшение рассматриваемых моделей до гибридных. А в конце вас будет ждать приятный бонус.

Matrix Factorization

People meet recommender systems. Factorization - 12

У нас был план, и мы ему следовали. Вот наш план: мы начнем с классических подходов. А далее добавив немного магии мы поговорим про их улучшения.

Классические подходы:
- Singular Value Decomposition (SVD)
- Singular Value Decomposition with implicit feedback (SVD++)
- Collaborative Filtering with Temporal Dynamics (TimeSVD++)
- Weighted Matrix Factorization (WMF or ALS)
- Sparse Linear Methods (SLIM)
- Factorization Machines (FM)
Вероятностные подходы:
- Probabilistic Matrix Factorization (PMF)
- Bayesian Probabilistic Matrix Factorization (BPMF)
- Bayesian Factorization Machines (BFM)
- Gaussian Process Factorization Machines (GPFM)

Singular Value Decomposition (SVD)

Начнем с самого простого и понятного метода — SVD. Мы можем записать все наши данные в матрицу $A$ размером $n times m$ , где $n=|U|$ , а $m=|I|$ . Для известных пар из $mathcal{D}$ мы запишем элемент матрицы $A_{ui}=r_{ui}$ , а все остальные приравняем к нулю. Используя SVD разложение, можно представить матрицу $A$ в виде произведения трех других: $U,~Sigma,~V$ . Оставив $k$ самых больших по модулю сингулярных значений, можно сделать малораноговую аппроксимацию нашей матрицы $A$ .

$A=U Sigma V^T, quadquadquadquad A approx hat{A}=hat{U} hat{ Sigma } hat{V}^T .$

Обозначим матрицу $Q$ и $P$ следующим образом. Тогда матрица $A$ представляется в виде такого произведения:

$P=(hat{U} hat{ Sigma })^T, quadquad Q=hat{V}^T, quadquadquadquad A approx P^T cdot Q .$

Или поэлементно это можно записать:

$r_{ui} approx hat{r}_{ui}=p^T_u q_i .$

Получается, что $p_u$ и $q_i$ — это латентные представления пользователя $u$ и товара $i$ в каких-то пространствах размерности $k$ . На самом деле мы можем представить нашу модель в конечном виде и сразу искать латентные представления товаров и пользователей. Для этого просто поговорим немного об оптимизации. В данной задаче параметрами выступают латентные вектора:

$Theta={ p_u, q_i| u in U, i in I} .$

И в этом случае они будут находиться при минимизации квадратичной ошибки c учетом регуляризации:

$sum_{(u, i) in mathcal{D}} (r_{ui} - hat{r}_{ui})^2 + lambdasum_{theta in Theta}|theta|^2=sum_{(u, i) in mathcal{D}} (r_{ui} - p^T_u q_i)^2 + lambdasum_{u in U}|p_u|^2 + lambdasum_{i in I}|q_i|^2 .$

Стоит отметить, что большинство методов, о которых пойдет речь дальше, будут минимизировать функционал, записанный в левой части. Меняться будет лишь значение $hat{r}_{ui}$ . А оптимизация будет происходить известными градиентным спуском (GD) или же чередованием наименьших квадратов (ALS). Что это и о чем это хорошо рассказано в этой Habr-статье ^[9] или здесь ^[11], и я не вижу смысла тут повторяться. Хотелось бы лишь отметить тот факт, что градиентный спуск работает не только дольше, но и хуже.

Сразу поговорим про улучшение этого метода (иногда вместо обычного SVD, его называют SVD $_{bias}$ ). В реальности бывает так, что некоторые люди склонны завышать оценки товаров, а другие наоборот занижать. Так же и сами товары могут быть довольно популярны и менее популярны. Поэтому обычная модель SVD работает не так хорошо. Для решения этой проблемы нужно просто использовать обычное смещение (bias):

$hat{r}_{ui}=mu + b_u + b_i + p^T_u q_i ,$

где $b_u$ — смещение для конкретного пользователя, $b_i$ — для товара, а $mu$ — глобальное смещение. При этом количество параметров немного вырастит:

$Theta={ mu, b_u, b_i, p_u, q_i| u in U, i in I} .$

SVD++

В работе Factorization Meets the Neighborhood ^[12] описывается новая модификация SVD модели. Но для начала поговорим про явный и неявный отклик от пользователя (explicit and implicit user feedback). Если по итогу взаимодействия между пользователем и товаром мы знаем оценку $r_{ui}$ , то это считается явным откликом. В противном случае мы знаем лишь об их взаимодействии и это неявный. Авторы статьи ассоциируют каждого пользователя с двумя группами товаров: $R(u)$ — множество товаров с явным откликом (рейтинги которых мы знаем) и $N(u)$ — множество товаров с неявным откликом (знаем лишь о наличии взаимодействия).

Метод SVD++ использует неявный отклик и в результате модель выглядит следующим образом:

$hat{r}_{ui}=mu + b_u + b_i + q^T_i left( p_u + |N(u)|^{-1/2} sum_{j in N(u)} y_j right) .$

В этом случае количество параметров увеличивается:

$Theta={ mu, b_u, b_i, p_u, q_i, y_i| u in U, i in I} .$

Поскольку неявный отклик иногда бывает недоступным, множество $N(u)$ можно заменить на $R(u)$ , т.к. всегда выполняется $R(u) subset N(u)$ . А добавку данного метода можно расценивать как рекомендации товара к товару (item-item recommendation).

Asymmetric-SVD

Вместе с SVD++ авторы статьи предлагают другую модель. Идея этого метода так же является использование неявного отклика. В результате они получают:

$hat{r}_{ui}=b_{ui} + q^T_i left( |R(u)|^{-1/2} sum_{j in R(u)} (r_{uj} - b_{uj})x_j + |N(u)|^{-1/2} sum_{j in N(u)} y_j right) ,$

где $b_{ui}=mu + b_u + b_i$

TimeSVD++

Одним из широко известных гибридных моделей является TimeSVD++. В часто используемых данных (MovieLens, Netflix) помимо историй рейтингов фильмов от пользователей существует информация о времени, когда этот рейтинг был поставлен. Отсюда возникает законный вопрос, как это использовать. В статье Collaborative Filtering with Temporal Dynamics ^[13] авторы предлагают в модель SVD++ добавить зависимость от времени:

$hat{r}_{ui}(t)=mu + b_u(t) + b_i(t) + q^T_i left( p_u(t) + |R(u)|^{-1/2} sum_{j in R(u)} y_j right) .$

Давайте разбираться, как именно влияет время на каждое слагаемое:
Item bias: Если разделить интервал времени, когда были проставлены рейтинги на отрезки (в работе предлагают 30 частей) и добавить свои собственные параметры $b_{i,text{Bin}(t)}$ для каждого товара, которые выбираются в зависимости от того, в какой промежуток попала переменная $t$ :

$b_i(t)=b_i + b_{i, text{Bin}(t)}$

User bias: Анализируя данные Neflix, заметили, что для каждого пользователя в среднем есть лишь 40 дней, в которые он расставлял рейтинги. Поэтому поступим как с товарами и добавим свои собственные параметры $b_{u, t}$ для каждого пользователя. Добавим линейную зависимость от времени — введем дополнительное слагаемое $alpha_u$ с амортизационным коэффициентом:

$b_i(t)=b_i + alpha_u cdot text{dev}_u(t) + b_{u, t} quadquadquadquad text{dev}_u(t)=text{sign}(t - t_u) cdot |t - t_u|^{beta}$

.
Есть и другие варианты, как добавить зависимость от времени для пользователей: Более подробно расписано в статье
User embeddings: похожий трюк мы добавим для каждой компоненты нашего латентного представления $p_u(t)=(p_{u1}(t), dots, p_{uf}(t))^T$ :

$p_{uk}(t)=p_{uk} + alpha_{uk} cdot text{dev}_u(t) + p_{uk, t}.$

Weighted Matrix Factorization (WMF) & Alternating Least Squares (ALS)

Одной из главных проблем, которая есть в SVD, использование лишь явного отклика от пользователя. Это проблему частично решили в SVD++. Но есть и другой путь — Weighted Matrix Factorization (WMF). В это статье ^[14] предложили почти не менять модель ( $hat{r}_{ui}=p^T_u q_i$ ), а поменять процесс обучения. Присвоим для рейтингов $r_{ui}$ , которые мы не знаем (т.е. для пар $(u, i) notin mathcal{D}$ ) значение равное 0. А дальше для каждой пары $(u, i)$ введем параметр $c_{ui}$ , который будет отвечать за важность рейтинга $r_{ui}$ . Главный посыл в том, что нельзя полностью доверять явным признакам. Ведь пользователь мог купить какой-то товар как подарок для друга. Или просмотреть следующее видео в YouTube только потому, что отошел от компьютера. Плюс ко всему, мы хотим использовать не только рейтинги, которые знаем, но и не знаем. Именно поэтому мы изменим функционал, который будем минимизировать, таким образом, чтобы учесть все что можно:

$sum_{(u, i)} c_{ui}(r_{ui} - hat{r}_{ui})^2 + lambdasum_{theta in Theta}|theta|^2 .$

Авторы статьи предлагают такой выбор параметров: $c_{ui}=1 + alpha r_{ui}$ . Такой выбор отвечает главной особенности: большое значение для тех $r_{ui} > 0$ и маленькое для $r_{ui}=0$ . Параметр $alpha$ константный и в этой работе при $alpha=40$ модель дала хорошие результаты.

Так же стоит отметить тот факт, что в той же работе ^[14] авторы используют (ALS) для обновления параметров. И в литературе можно встретить как метод WMF, так и ALS, но это одно и то же.

Fast Alternating Least Squares

Говоря про ALS метод, нельзя не рассказать про метод eALS описанный в этой статье ^[15]. Метод не меняется, а меняется лишь способ обновления параметров. За счет более умной оптимизации с использованием кеша, параметры модели можно обновлять на лету. За счет этого этот метод хорошо зарекомендовал себя в онлайн рекомендациях.

Кроме этого, авторы предлагают новый вид для параметров $c_{ui}$ вместо предложенных в ALS методе:

$c_{ui}=c_i + alpha r_{ui}, quadquadquadquad c_i=c_0 frac{f_i^{beta}}{sum_{j in I} f_j^{beta}} ,$

с двумя новыми гиперпараметрами $c_0$ и $beta$ , которые можно настроить на каждом наборе данных.

Sparse Linear Methods (SLIM)

В работе Sparse Linear Methods (SLIM) ^[16] авторы статьи предлагают новый метод. Главной мотивацией послужило то, что SVD работает довольно долго. Поэтому они предложили простую модель основанную на идеи ближайших соседей в пространстве товаров. Модель SLIM выглядит следующим образом:

$hat{a}_{ui}=a^T_u w_i quadquadquadquad hat{A}=AW$

Тогда параметрами в этой задаче являются только веса $W in mathbb{R}^{m times m}$ . Причем на эту матрицу весов мы накладываем некоторые ограничения: $W geq 0$ и $text{diag}(W)=0$ . И эти веса подбираются в процессе минимизации следующего функционала:

$frac{1}{2}|A - AW|^2_F + frac{beta}{2}|W|^2_F + lambda|W|_1$

Матрицу $W$ можно рассматривать как матрицу похожести или важности между всеми товарами.

Factorization Machines (FM)

Другой мощной моделью являются факторизационная машина, которая была предложена в работе Factorization Machines ^[17] (FM). Допустим что целевая переменная зависит не только от самих признаков, но и еще от их попарного взаимодействия (полиномиальная регрессия 2-ого порядка). Тогда модель будет выглядеть следующим образом:

$hat{r}(x)=w_0 + sum_{i=1}^{n} w_i x_i + sum_{i=1}^{n} sum_{i=j+1}^{n} v^T_i v_j ~ x_i x_j, quadquadquadquad w_0 in mathbb{R} ~~~ w in mathbb{R}^n ~~~ V in mathbb{R}^{n times k} .$

Оптимизация параметров происходит с помощью стохастического градиентного спуска (SGD) (более подробно можно прочитать в работе). Но до сих пор не до конца понятно, что такое $x$ и как оно связано с нашей парой $(u, i)$ . Более наглядно это будет видно на рисунке снизу. Первая часть вектора кодирует пользователя, вторая — товар. После можно добавить дополнительные признаки — историю просмотров пользователя (третья часть). Другие дополнительные признаки зависят лишь от данных и вашей креативности (жирный намек на гибридные методы).

People meet recommender systems. Factorization - 87

Так же авторы в этой статье показывают, что SVD, SVD++ — это лишь частные случаи FM. Например для SVD это легко видно, если обозначить:

$ n=| U cup I |, quadquadquad x_j=delta (j=u ~lor~ j=i) .$

где $delta$ — символ Кронекера. Т.е. вектор $x$ состоит из нулей и двух единиц в индексах кодирующих $u$ и $i$ . Тогда в выражение для FM представится в виде:

$hat{r}(x)=w_0 + w_u + w_i + v^T_u v_i .$

Продолжим рассматривать картинку и увидим, что мы можем добавить абсолютно любые дополнительные признаки в переменную $x$ : время, последнюю рекомендацию. Например, у каждого фильма есть жанр, год выпуска, страна, режиссёр, сценарист, оператор и актерский состав. Все это можно добавить как признаки и использовать их в предсказании.

Probabilistic Matrix Factorization (PMF)

Дорогой читатель, хочу поздравить тебя, что ты дошел до этого момента, вот сейчас начнется самое сложное.

Другой мощной моделью считается вероятностная матричная факторизация (PMF), предложенная в этой статье ^[18]. Главная идея, взять самый простой SVD: $p_u$ и $q_i$ — латентные вектора пользователей и товаров. Но в отличие от обычной модели, зададим вероятностную:

$p(r | P, Q, sigma)=prod_{(u, i) in mathcal{D}}mathcal{N}(r_{ui}| g(p_u^Tq_i), sigma^2) ,$

где $mathcal{N}$ — нормальное распределение, a $g(x)=frac{1}{1 + e^{-x}}$ — логистическая функция (сигмойда). Сделаем довольно сильное предположение, что наши пользователи и товары независимы, тогда латентные признаки будут распределены по Гаусу с нулевым средним и диагональной матрицей ковариации:

$p(P| sigma_p)=prod_{u in U} p(p_u| 0, sigma^2_p mathbf{I}), quadquadquadquad p(Q| sigma^2_q)=prod_{i in I} p(q_i| 0, sigma_q^2 mathbf{I}) .$

И если воспользоваться методом максимального правдоподобия (подробнее в статье) мы можем записать функционал, который будет минимизировать:

$frac{1}{2} sum_{(u, i) in mathcal{D}} (r_{ui} - p_u^T q_i)^2 + frac{lambda_p}{2} sum_{u in U} |p_u|^2 + frac{lambda_q}{2} sum_{i in I} |q_i|^2 ,$

где $lambda_p=frac{sigma_p}{sigma}$ и $lambda_q=frac{sigma_q}{sigma}$ — регуляризационные множители. Стоит отметить, что если в обычном SVD они были гиперпараметрами, то здесь они могут подбираться автоматически.

Constrained PMF

В этой же работе последним улучшением обычного PMF является Constrained PMF. Мотивация почти та же сам, что при улучшении SVD до SVD++. Модель не меняется, за исключением того, что вместо $p_u$ мы используем:

$p_u + frac{sum_{i in R(u)} y_i}{|R(u)|} ,$

где $R(u)$ — все то же множество товаров, рейтинги которых есть у пользователя $u$ .

Bayesian Probabilistic Matrix Factorization (BPMF)

И сразу же поговорим про улучшение ^[19] PMF до BPMF. Существенным недостатком PMF модели является тот факт, что мы считаем, что пользователи и товары независимые. Мы можем это исправить поменяв вероятностное распределение:

$p(P| mu_p, Lambda_p)=prod_{u in U} p(p_u| mu_p, Lambda_p) ,quadquadquadquad p(Q| mu_q, Lambda_q)=prod_{i in I} p(q_i| mu_q, Lambda_q) .$

Параметры $Theta_p={ mu_p, Lambda_p }$ и $Theta_q={ mu_q, Lambda_q }$ в свою очередь берутся из распределения Гаусса-Вишарта ^[20] для которых мы зададим свои гиперпараметры $Theta_0={ mu_0, nu_0, W_0 }$ . Стоит сказать, что предсказание этой модели не совсем тривиальное и для более детального погружения стоит обратиться к первоисточнику ^[19].

Bayesian Factorization Machines (BFM)

Ну и конечно, один из лучших методов не может не получить приставку Bayesian, вот доказательства ^[21]. Если вспомнить на секундочку обычную модель факторизационной машины, то нашими параметрами будет являться множество $Theta={ w_0, w_i, v_i} .$ Ключевая идея состоит в предположении, что каждый параметр принадлежит какому-то распределению. Для этого введем дополнительное множество гиперпараметров: $Theta_H={ lambda_{theta}, mu_{theta} | theta in Theta }$ . После чего мы можем построить апостериорное распределение на наши параметры и с помощью некоторых хитрых техник сэмплировать из него.

Gaussian Process Factorization Machines (GPFM)

В статье ^[22] про GPFM авторы решили к факторизационным машинам прикрутить гаусовские процессы. Ключевой идеей является введение специальной функции $f$ с параметрами $theta$ . Причем для каждого пользователя параметры $theta_u$ будут уникальными и для того, чтобы получить результат, нам необходимо будет лишь посчитать:

$hat{r}_{ui}=f(q_i, theta_u)$

У внимательного читателя возникнет вопрос, а причем тут гаусовские процессы. Дело в том, что сама функция $f$ как раз и берется из гаусовского процесса, с некоторым ядром. И примечательнее всего, что в этот момент мы можем добавить нелинейность при использовании, к примеру, экспоненциального ядра.

Так же в работе не уходят от возможности гибридного подхода и использую дополнительные латентные вектора для контентных признаков.

На десерт: Bayesian Personalized Ranking (BPR)

В конце хотелось бы рассказать про BPR модель, которая хорошо зарекомендовала себя в "продакшене". На самом деле, BPR — это не модель, а способ оптимизации, подробнее можно прочитать в работе Bayesian Personalized Ranking ^[23]. Ну а мы начнем разбирать в ней. Начнем с того, что здесь мы будем решать задачу ранжирования, когда для двух товаров $i$ и $j$ мы хотим выбрать наиболее релевантный для пользователя $u$ . Поэтому вместо пары $(u, i)$ и его рейтинга $r_{ui}$ будет рассматривать тройку $(u, i, j)$ и результат сравнения товара $i$ с товаром $j$ ((+) если $i$ нравится больше, чем $j$ и (-) наоборот). Множество таких троек назовем $mathcal{D}_S$ . Так же введем вероятность для сравнения двух товаров. Причем результат сравнения зависит от пользователя (поэтому и есть приставка personalized в статье):

$p(i <_u j | Theta)=sigma(hat{r}_{uij}(Theta)) ,$

где $sigma$ — сигмойда, a $hat{r}_{uij}$ — задается моделью. Если воспользоваться методом максимального правдоподобия (MLE), мы можем записать функционал, который будем максимизировать:

$min_{Theta} sum_{(u, i, j) in mathcal{D}_S}ln{sigma(hat{r}_{uij})} - lambda |Theta|^2$

А оптимизация происходит с помощью стохастического градиентного спуска (SGD):

$Theta leftarrow Theta + alphaleft(frac{e^{-hat{r}_{uij}}}{1 + e^{-hat{r}_{uij}}} cdot frac{partial}{partial Theta}hat{r}_{uij} + lambda Theta right)$

До сих пор мы не говорили, какую модель мы берем. И на самом деле, мы можем воспользоваться любой классической моделью, о которых мы поговорили ранее. Выберем модель SVD:

$hat{r}_{uij}=hat{r}_{ui} - hat{r}_{uj} quadquadquadquad hat{r}_{ui}=p_u^T q_i$

И тогда для такой модели можно вычислить частные производные по параметрам:

$frac{partial}{partial Theta}hat{r}_{uij}=begin{cases} (q_{ik} - q_{jk})~~~text{if } theta=p_{uk}\ p_{uk}~~~~~~~~~~~~~~~text{if } theta=q_{ik}\ -p_{uk}~~~~~~~~~~~~text{if } theta=q_{jk} end{cases}$

У BPR подхода (как и у всех методов ранжирования) есть ряд преимуществ, по сравнению с обычными методами. Последние пытаются ввести меру на товар и пользователя, что не всегда получается сделать хорошо. Методы ранжирования лишены этой проблемы в некотором роде. При этом, попарная задача (pairwise approach ^[24]) куда большая общая, чем предсказывание рейтинга (pointwise approach ^[25]), т.е. такую задачу мы можем решать на разнообразных откликах. К примеру, мы показываем 5 товаров человеку, а он выбирает один. Тогда мы знаем, что выбранный товар ему нравится больше, чем любой из оставшихся. И последние преимущество — BPR не привязано к какой-то модели, а это лишь способ оптимизации. Поэтому, мы можем выбрать удобный нам метод или даже придумать свой.

Show must go on

В этот раз мы обсудили много Факторизационных методов в рекомендательных системах, но еще остались нетронутыми Графовые и Нейросетевые, в которых есть тоже очень много интересного.

Автор: Мокров Никита

Источник ^[26]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/matematika/345499

Ссылки в тексте:

[1] YouTube: https://www.youtube.com

[2] Spotify: https://www.spotify.com/

[3] Netfilx: https://www.netflix.com/ru/

[4] NeurIPS: https://neurips.cc

[5] ICML: https://icml.cc

[6] RecSys: https://recsys.acm.org

[7] StatML: https://sites.skoltech.ru/statml/

[8] Skoltech: https://www.skoltech.ru/en

[9] например: https://habr.com/ru/company/yandex/blog/241455/

[10] статья: https://m.habr.com/ru/company/okko/blog/454224/

[11] здесь: https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture12-factorizations.pdf

[12] Factorization Meets the Neighborhood: https://www.cs.rochester.edu/twiki/pub/Main/HarpSeminar/Factorization_Meets_the_Neighborhood-_a_Multifaceted_Collaborative_Filtering_Model.pdf

[13] Collaborative Filtering with Temporal Dynamics: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.379.1951&rep=rep1&type=pdf

[14] статье: http://yifanhu.net/PUB/cf.pdf

[15] статье: https://www.comp.nus.edu.sg/~xiangnan/papers/sigir16-eals-cm.pdf

[16] Sparse Linear Methods (SLIM): https://www.researchgate.net/publication/220765374_SLIM_Sparse_Linear_Methods_for_Top-N_Recommender_Systems

[17] Factorization Machines: https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf

[18] статье: https://papers.nips.cc/paper/3208-probabilistic-matrix-factorization.pdf

[19] улучшение: https://www.cs.toronto.edu/~amnih/papers/bpmf.pdf

[20] Гаусса-Вишарта: https://en.wikipedia.org/wiki/Normal-Wishart_distribution

[21] доказательства: https://www.ismll.uni-hildesheim.de/pub/pdfs/FreudenthalerRendle_BayesianFactorizationMachines.pdf

[22] статье: http://dnslab.jnu.ac.kr/classes/old_courses/2015s_das/%5BSIGIR%202014%5D%20Gaussian%20Process%20Factorization%20Machines%20for%20Context-aware%20Recommendations.pdf

[23] Bayesian Personalized Ranking: https://arxiv.org/pdf/1205.2618.pdf

[24] pairwise approach: https://en.wikipedia.org/wiki/Learning_to_rank#Pairwise_approach

[25] pointwise approach: https://en.wikipedia.org/wiki/Learning_to_rank#Pointwise_approach

[26] Источник: https://habr.com/ru/post/486802/?utm_source=habrahabr&utm_medium=rss&utm_campaign=486802

Нажмите здесь для печати.