- PVSM.RU - https://www.pvsm.ru -

Привет! Сегодня предлагаю поговорить о том, как мы проверяем, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты, мемы. Для нас это очень важная задача, ведь YandexGPT используют такие большие продукты, как Поиск и Алиса, с которыми ежедневно взаимодействуют миллионы людей, — нейросеть обязана понимать культурные отсылки самого разного уровня.
В статье про бенчмарки для LLM [1] уже упоминался бенчмарк культурного кода. В него мы вложили много сил и души, и, думаю, пришло время рассказать о нём подробнее: как же мы придумали замерять культурный код, из чего собрали бенчмарк, как тестировали YandexGPT.
Культурный код — это система знаков, традиций, норм и понятий, которые отличают одну группу людей от другой. Культурный код может рассказывать о чём угодно: о поколениях, увлечениях, профессиях, религии — о любых группах людей, связанных значительным общим контекстом. Но чаще всего о нём вспоминают, когда речь идёт о культурных различиях между национальностями и странами.
В декабре 2023 года мы взялись за большую задачу — оцифровать представление о современном российском культурном коде. Вместе с командой AI‑тренеров мы провели тщательное исследование и решили разложить эту задачу на следующие верхнеуровневые категории, которые, в свою очередь, состоят из более мелких.
Сразу отмечу, что, хоть сфера истории тоже так или иначе относится к культурному коду, мы не включали её в этот бенчмарк. Для этого у нас есть отдельные бенчмарки, которые проверяют знания событий, личностей, фактов.
Итак, мы договорись, какие аспекты и категории будем замерять. Теперь стоит разобраться, как именно замерять. Не буду подробно говорить про очевидный фактологический срез — знание дат, имён, цитат, культурных событий. Их можно замерять типичным подходом академических бенчмарков на знание фактов.
Сформулировать задачи на знание цитат, фразеологизмов, разговорных выражений несложно: показываем модели неполную цитату с пробелом, который просим заполнить. Но и у модели такие задачи обычно не вызывает затруднений.
Вставь недостающее слово в цитату из «Кавказской пленницы»: «Будь проклят тот день, когда я сел за баранку этого...!»
...пылесоса
Заполни пробел: «Лол,..., чебурек»
...кек
Закончи фразу: «Меня трудно найти, легко потерять и невозможно...»
...забыть
Такие задачи скорее тест на способность модели запоминать факт. Они не тестируют её понимание и способность интерпретировать. Поэтому мы ввели ещё один тип вопросов — открытые. В таком вопросе мы не приводим конкретную цитату, а косвенно описываем её.
По мнению Виктора Цоя, чего требуют наши сердца и глаза?
Перемен
Какое звание у Очевидности?
Капитан
Сколько шагов отделяет любовь от ненависти, если верить пословице?
Один
А ещё эти вопросы отлично подходят для проверки модели на какие‑то точные знания, менее очевидные, чем исторические факты. Например, о быте, социуме, приметах.
Этот предмет интерьера обычно лежит на полу, но у некоторых людей может висеть и на стене — для красоты или тепла. Ответь одним словом.
Ковёр
Народная примета уверяет, что этого нельзя делать в доме, если не хочешь остаться без денег.
Свистеть
Синонимом какого лекарственного растения названа транспортная карта в Санкт-Петербурге?
Подорожник
И, наконец, ещё одно усложнение: формулируем открытые вопросы, но более витиевато. Человеку для ответа на такой вопрос приходится подумать немного дольше, но задача по‑прежнему остаётся посильной для него. А вот модели приходится нелегко.
Что правда делает с глазами, когда нам неприятно её слышать?
Колет
В каком месяце, согласно песне, тополиный пух сочетается с жарой и звёздными ночами?
Июль
Согласно поговорке, какое животное демонстрирует самый ужасный почерк (по крайней мере, лапой)?
Курица
Ещё более сложная задача — замеры в областях, куда более эфемерных: цитаты, отсылки, сюжеты, бытовой и социальный контекст. Для этого мы придумали специальный тип вопросов, который требует оценки, сравнения, синтеза разных контекстов. Самый очевидный кластер таких задач — вопросы про сюжетные детали или какие‑то особенности фильма, книги, культурного явления, сформулированные так, чтобы человек без труда понимал, о чём речь. Для модели это намного сложнее, ведь в трейн‑датасете она такого не видела.
Здесь пригодились вопросы с вариантами ответов.
Какие приёмы используют мультипликаторы «Ну, погоди!», чтобы подчеркнуть негативный образ Волка?
Волк ведёт себя по‑хамски, имеет вредные привычки
Волк использует нецензурную брань
Волк состоит в преступном клане
У Волка много татуировок тюремной тематики
Волк ведёт себя по‑хамски, имеет вредные привычки
Взаимоотношения Новосельцева и Калугиной в «Служебном романе» скорее похожи на взаимоотношения каких персонажей?
Скруджа и денег («Утиные истории»)
Катарины и Петруччо («Укрощение строптивой»)
Колобка и Лисы
Анны Карениной и поезда
Катарины и Петруччо («Укрощение строптивой»)
К персонажу из какого мультфильма отсылает образ Совуньи из «Смешариков»?
«Винни‑Пух»
«Карлик Нос»
«Конь БоДжек»
«Тайна третьей планеты»
«Винни‑Пух»
На всех этапах разработки бенчмарка мы задавали много вопросов моделям, чтобы в итоге наш бенчмарк оказался достаточно сложным и нетривиальным.
Как только мы собрали тестовый кусочек бенчмарка на 200 вопросов, сразу протестировали на нашей команде. Этот замер подсветил смещение нашего мини‑бенча по возрастному критерию. Первая версия была сильно смещена скорее в 30+, так что мы задумались о необходимости выравнивания ситуации и ввели в классификацию вопросов категорию возраста. Например, люди младше 30 лет чаще не узнают отсылки к советскому кинематографу, а старше 30 — могут не узнать мемы и подростковый сленг.
Сначала мы разделили вопросы на две категории: те, которые скорее будут понятны людям 30+, и те, которые скорее будут понятны людям 30–. Но довольно быстро поняли, что существует множество областей и тем, в которых одинаково хорошо ориентируются обе группы. Так появилась категория «все».
Вопросы из категории 30+:
Что, согласно рекламе, купила бы ваша киска?
Вискас
Кто в «Ералаше» говорит: «Здесь рыбы нет»?
Директор стадиона
Что нужно сделать с бумажным автобусным билетом, если сумма первых трёх цифр его номера равняется сумме последних трёх цифр?
Съесть его
Вопросы из категории 30−:
Кто, согласно мему, кродёться?
Мыш
Каким современным сленговым словом называют того, кто не принадлежит ни к каким субкультурам, не страдает ментальными расстройствами, ничем особо не увлечён?
Нормис
Что значит фраза «это просто пипяо»?
Случилось нечто ужасное или неприятное
Вопросы для всех возрастных категорий:
Как в разговоре могут назвать резервную копию данных на локальном или удалённом носителе?
Бэкап
Кого надо позвать, если у нас отмена?
Галю
Согласно Маяковскому, если звёзды зажигают, кому это нужно?
Кому‑нибудь
Первые два захода мы делали с небольшими пулами вопросов по схеме: выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем. После того как мы наконец отладились по составу, формату и смыслам, настала пора масштабироваться — увеличивать полноту и размер бенча.
Темы для вопросов и сами формулировки этих вопросов нам собирала большая команда AI‑тренеров. Когда материал был набран, мы его отшлифовали, привели к общему формату, проверили на репрезентативность и разнообразие.
В итоге у нас получился бенчмарк на 2000 самых разнообразных вопросов — настало время финальной проверки! Мы предложили ответить на вопросы бóльшему количеству AI‑тренеров. В разметке приняли участие 211 человек, а каждый вопрос проходил через пять разных тренеров.
Кстати, такая проверка помогла найти и починить последние опечатки и неточности в вопросах и ответах нашего бенчмарка. Например, если ни один из пяти человек не ответил на какой‑то вопрос, скорее всего, с вопросом что‑то не так. Важный момент: при ответах на вопросы нельзя было искать информацию в интернете — чтобы было честно.
Столбцы — количество исполнителей по годам рождения (округляем до 5). Линии показывают среднюю долю правильных ответов исполнителей по возрасту: оранжевая — на вопросы 30–, зелёная — на вопросы 30+. Ось справа относится к линиям — скоры, а по оси слева можно увидеть количество исполнителей.
В итоге средний скор у AI‑тренеров — 78% правильных ответов. На это число нам и предстоит ориентироваться в дальнейших замерах. В идеале, конечно же, у модели должен быть результат выше, чем у людей, ведь она многократно видела весь интернет и точно могла бы узнать и понять наш культурный код.
Пока мы решили не открывать итоговый вариант культурного бенчмарка для сообщества. Дело в том, что мы очень переживаем за протечки и переобучение на него. Даже для нашей команды ML мы показываем лишь небольшую часть этого бенчмарка.
Последние замеры по нашему бенчмарку выглядят так:
|
Замер по людям |
YandexGPT Pro 4 |
|
78% |
63% |
Нам точно есть куда расти и чему ещё обучать нашу YandexGPT:)
Так как YandexGPT используется для Поиска с Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, нам важно, чтобы наша LLM знала «русскую душу» и могла интерпретировать и генерировать запросы, учитывая культурные особенности и предпочтения аудитории. Так мы можем быть уверены, что нейросеть способна создавать контент и генерировать ответы, которые будут понятны большинству пользователей разных поколений и социальных кругов.
Автор: ibarskaya
Источник [2]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/nejroseti/405947
Ссылки в тексте:
[1] про бенчмарки для LLM: https://habr.com/ru/companies/yandex/articles/861084/
[2] Источник: https://habr.com/ru/companies/yandex/articles/868282/?utm_campaign=868282&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.