- PVSM.RU - https://www.pvsm.ru -

Мы давно привыкли к лентам рекомендаций, которые будто сами знают, что нам показать. Но чаще всего они угадывают по косвенным признакам — кликам, лайкам, редким дизлайкам. Это пассивная петля: система что‑то показывает, мы как‑то реагируем, а дальше алгоритм сам додумывает причины. Отсюда искажения: не понятно, что именно понравилось, а что раздражает, и почему. И чем дальше, тем сильнее эффект фильтров — круг однотипного контента, который тяжело разорвать.
Авторы работы предлагают сменить парадигму. Вместо немого скролла — активные команды внутри самой ленты: Interactive Recommendation Feed (IRF). Пользователь пишет короткие фразы прямо по месту: дешевле, без цветочков, побольше карманов, не старше 2020, и т.д. Система тут же пересобирает выдачу. Важно, что это не отдельный чат, как в системах рекомендаций через диалог, а живое управление основной лентой.
В сердце решения — RecBot, мультиагентная система на базе LLM. Два агента делят работу:
Парсер достаёт из свободного текста чёткую структуру предпочтений.
Планировщик оркестрирует инструменты и мгновенно перестраивает политику рекомендаций.
Ключевой акцент — на явном учёте позитивных и негативных намерений. На продакшене, отмечают авторы, около 57% команд — именно отрицательные. Это тот сигнал, которого так не хватает классическим моделям.
Парсер обучен раскладывать намерения на позитивные и негативные, а каждую группу делить на жёсткие правила (hard) и мягкие склонности (soft). Он ведёт память диалога: сохраняет релевантные требования, добавляет новые, снимает устаревшие при явных сигналах вроде больше не интересует. Это снижает вычислительные издержки и убирает смысловой дрейф при долгих сессиях.
Filter. Применяет жёсткие ограничения и отбрасывает неподходящее сразу.
Matcher. Мягкий скоринг: семантическая близость (эмбеддинги) плюс коллаборативная фильтрация, которая учитывает историю пользователя и контекст намерений.
Attenuator. Штрафует за близость к нежелательным признакам.
Aggregator. Складывает оценки и собирает топ‑K.
Инструменты вызываются по потребности: сначала сужаем пространство через Filter, затем параллельно считаем матчинги и штрафы, в конце агрегируем. Всё работает на лету.
Лучшие закрытые LLM нередко точнее, но дороги. Авторы пошли путём симуляционно‑усиленной дистилляции: построили симулятор пользователя с персоной и целевым предметом, разыгрывали интерактивные сессии с учительской версией RecBot и собирали сценарии взаимодействия. Затем обучили более лёгкого студента (Qwen‑модель) повторять логику учителя. В ряде сценариев студент даже обошёл учителя — редкий, но приятный эффект правильной симуляции и таргетированного тюнинга.
Оффлайн тесты проводились на Amazon Books, MovieLens и Taobao с тремя сценариями:
SR: одна точная команда.
MR: до пяти раундов уточнений.
MRID: многотуровый диалог со сдвигом интересов.
RecBot уверенно превосходит сильные бейзлайны. Примеры:
Amazon, SR: R@10 у RecBot‑GPT 0.2459 против 0.0598 у BGE.
MovieLens, SR: 0.4293 против 0.1370 у BGE.
Taobao, SR: 0.4918 против 0.2122 у InteRecAgent.
В многотуровых задачах преимущество растёт: на Taobao (MR) Pass Rate у RecBot‑GPT — 41.14% против 18.42% у InteRecAgent при меньшем среднем числе раундов.
Абляции показывают, что выигрывает именно комбинация компонентов: фильтрация по жёстким правилам плюс персонализированный матчер и явная модель отрицательных намерений.
NFF (частота негативной обратной связи): −0.71%.
CICD (разнообразие категорий кликов): +1.44%.
ATC: +1.28%; GMV: +1.40%.
Отдельно отмечу сегментацию: у пользователей с умеренным количеством негативов NFF снижается до −3.3%, а вот экстремально требовательная группа остаётся вызовом.
В живых сессиях система корректно исполняет команды в 88–89% случаев по оценке экспертов и LLM‑судьи, что удобно для масштабного мониторинга качества.
Кейс на витрине выглядит естественно: длинные юбки → светло‑голубые → около 200 → без флорала — и на четвёртом раунде попадание в точку.
IRF закрывает коммуникационный тупик между человеком и алгоритмом: вместо угадываний — прямые инструкции на естественном языке и мгновенная реакция. Это расширяет разнообразие, уменьшает эффект информационного пузыря и, как показывают данные, помогает бизнесу. Вперёд — к онлайн‑обучению, более персональному рассуждению, проактивным подсказкам и понятным объяснениям решений.
📜 Полная статья [1]
***
Если вам интересна тема ИИ, [2]подписывайтесь на мой Telegram‑канал [3] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [4]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/ii/432077
Ссылки в тексте:
[1] 📜 Полная статья: https://arxiv.org/abs/2509.21317
[2] : https://t.me/+mP35nQPhgXZmZDYy
[3] подписывайтесь на мой Telegram‑канал: https://t.me/+n34kiW_9Zdk2ZDcy
[4] Источник: https://habr.com/ru/articles/951694/?utm_campaign=951694&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.