Прямой диалог с лентой или будущее рекомендательных систем

Мы давно привыкли к лентам рекомендаций, которые будто сами знают, что нам показать. Но чаще всего они угадывают по косвенным признакам — кликам, лайкам, редким дизлайкам. Это пассивная петля: система что‑то показывает, мы как‑то реагируем, а дальше алгоритм сам додумывает причины. Отсюда искажения: не понятно, что именно понравилось, а что раздражает, и почему. И чем дальше, тем сильнее эффект фильтров — круг однотипного контента, который тяжело разорвать.

В пассивной ленте система видит только клики и лайки, а в интерактивной — понимает текстовые команды и тут же корректирует политику показа.

Авторы работы предлагают сменить парадигму. Вместо немого скролла — активные команды внутри самой ленты: Interactive Recommendation Feed (IRF). Пользователь пишет короткие фразы прямо по месту: дешевле, без цветочков, побольше карманов, не старше 2020, и т.д. Система тут же пересобирает выдачу. Важно, что это не отдельный чат, как в системах рекомендаций через диалог, а живое управление основной лентой.

Что именно нового

В сердце решения — RecBot, мультиагентная система на базе LLM. Два агента делят работу:

Парсер достаёт из свободного текста чёткую структуру предпочтений.
Планировщик оркестрирует инструменты и мгновенно перестраивает политику рекомендаций.

Ключевой акцент — на явном учёте позитивных и негативных намерений. На продакшене, отмечают авторы, около 57% команд — именно отрицательные. Это тот сигнал, которого так не хватает классическим моделям.

Двухагентная схема RecBot: парсер превращает текст в структурированные предпочтения, планировщик вызывает инструменты и формирует новую ленту.

Как это работает под капотом

Парсер обучен раскладывать намерения на позитивные и негативные, а каждую группу делить на жёсткие правила (hard) и мягкие склонности (soft). Он ведёт память диалога: сохраняет релевантные требования, добавляет новые, снимает устаревшие при явных сигналах вроде больше не интересует. Это снижает вычислительные издержки и убирает смысловой дрейф при долгих сессиях.

Парсер объединяет текущую ленту, команду и историю предпочтений, чтобы собрать актуальные требования.

Планировщик превращает структуру намерений в новый скоринг

Filter. Применяет жёсткие ограничения и отбрасывает неподходящее сразу.
Matcher. Мягкий скоринг: семантическая близость (эмбеддинги) плюс коллаборативная фильтрация, которая учитывает историю пользователя и контекст намерений.
Attenuator. Штрафует за близость к нежелательным признакам.
Aggregator. Складывает оценки и собирает топ‑K.

Инструменты вызываются по потребности: сначала сужаем пространство через Filter, затем параллельно считаем матчинги и штрафы, в конце агрегируем. Всё работает на лету.

Планировщик динамически строит цепочку вызовов инструментов и обновляет оценки объектов для следующей ленты.

Лучшие закрытые LLM нередко точнее, но дороги. Авторы пошли путём симуляционно‑усиленной дистилляции: построили симулятор пользователя с персоной и целевым предметом, разыгрывали интерактивные сессии с учительской версией RecBot и собирали сценарии взаимодействия. Затем обучили более лёгкого студента (Qwen‑модель) повторять логику учителя. В ряде сценариев студент даже обошёл учителя — редкий, но приятный эффект правильной симуляции и таргетированного тюнинга.

Что получилось в экспериментах

Оффлайн тесты проводились на Amazon Books, MovieLens и Taobao с тремя сценариями:

SR: одна точная команда.
MR: до пяти раундов уточнений.
MRID: многотуровый диалог со сдвигом интересов.

RecBot уверенно превосходит сильные бейзлайны. Примеры:

Amazon, SR: R@10 у RecBot‑GPT 0.2459 против 0.0598 у BGE.
MovieLens, SR: 0.4293 против 0.1370 у BGE.
Taobao, SR: 0.4918 против 0.2122 у InteRecAgent.

В многотуровых задачах преимущество растёт: на Taobao (MR) Pass Rate у RecBot‑GPT — 41.14% против 18.42% у InteRecAgent при меньшем среднем числе раундов.

Абляции показывают, что выигрывает именно комбинация компонентов: фильтрация по жёстким правилам плюс персонализированный матчер и явная модель отрицательных намерений.

Абляционное исследование: полный состав инструментов стабильно лучше урезанных вариантов.

Онлайн на реальной витрине e‑commerce три месяца A/B‑тестов дали ощутимый прирост:

NFF (частота негативной обратной связи): −0.71%.
CICD (разнообразие категорий кликов): +1.44%.
ATC: +1.28%; GMV: +1.40%.

Отдельно отмечу сегментацию: у пользователей с умеренным количеством негативов NFF снижается до −3.3%, а вот экстремально требовательная группа остаётся вызовом.

Динамика онлайн‑метрик в A/B‑тесте: рост разнообразия и бизнес‑показателей при одновременном снижении негативной обратной связи.

В живых сессиях система корректно исполняет команды в 88–89% случаев по оценке экспертов и LLM‑судьи, что удобно для масштабного мониторинга качества.

Кейс на витрине выглядит естественно: длинные юбки → светло‑голубые → около 200 → без флорала — и на четвёртом раунде попадание в точку.

Пример последовательного уточнения: учёт всех накопленных условий и успешная конвергенция.

Почему это важно

IRF закрывает коммуникационный тупик между человеком и алгоритмом: вместо угадываний — прямые инструкции на естественном языке и мгновенная реакция. Это расширяет разнообразие, уменьшает эффект информационного пузыря и, как показывают данные, помогает бизнесу. Вперёд — к онлайн‑обучению, более персональному рассуждению, проактивным подсказкам и понятным объяснениям решений.

📜 Полная статья ^[1]

***

Если вам интересна тема ИИ, ^[2]подписывайтесь на мой Telegram‑канал ^[3] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/ii/432077

Ссылки в тексте:

[1] 📜 Полная статья: https://arxiv.org/abs/2509.21317

[2] : https://t.me/+mP35nQPhgXZmZDYy

[3] подписывайтесь на мой Telegram‑канал: https://t.me/+n34kiW_9Zdk2ZDcy

[4] Источник: https://habr.com/ru/articles/951694/?utm_campaign=951694&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.