Полный гид по бенчмаркам LLM

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Основные принципы:

Сложность: исчерпывающие бенчмарки для изучения множества областей оценки при помощи динамически обновляемых датасетов.
Спецификация типа систем: бенчмарки, настроенные на работу с конкретными системами, например, Co-pilot, мультимодальными, retrieval-augmented generation (RAG), tool-use и встроенными LLM.
Цель оценки: ориентированные на проверку возможностей бенчмарки оценивают точность выполнения задачи, а ориентированные на риски — потенциальные риски.‍
Спецификация конечных задач: бенчмарки, оценивающие такие задачи, как ответы на вопросы, резюмирование, классификация текстов, перевод, извлечение информации и генерация кода.
Спецификация типов риска: бенчмарки, оценивающие риски LLM, в том числе с точки зрения конфиденциальности, надёжности, справедливости, объясняемости и экоустойчивости.

Что такое бенчмаркинг LLM?

Бенчмарки LLM используются для оценки точности LLM при помощи стандартизированных задач или промтов. Этот процесс включает в себя выбор задач, генерацию входных промтов и получение ответов моделей с численной оценкой точности моделей. Такая оценка крайне важна при аудитах ИИ, она позволяет объективно измерять параметры LLM, обеспечивая надёжность и этичность моделей с целью поддержания доверия общества и дальнейшего ответственного развития ИИ.

Бенчмарки для LLM можно представить как два спектра: от простых к сложным и от ориентированных на риски до ориентированных на возможности. Таким образом образуются основные четыре сегмента бенчмарков. Сложные бенчмарки охватывают множество различных целей оценки и типов систем, а простые бенчмарки направлены на конкретную цель. Ориентированные на возможности бенчмарки делают упор на оценку точности выполнения задач, а ориентированные на риски оценивают потенциальные риски моделей.

Сложность бенчмарков LLM

Простые и составные бенчмарки LLM

Многие бенчмарки LLM достаточно прямолинейны, у них есть конкретные цели и методики оценки, но новые разрабатываемые бенчмарки становятся всё более сложными. Простые датасеты обычно делают упор на отдельные конкретные задачи, предоставляя чёткие метрики. Составные же датасеты включают в себя множественные цели и методологии. Эти сложные бенчмарки позволяют одновременно оценивать множество разных граней точности LLM, обеспечивая более целостную картину её возможностей и ограничений. Среди таких сложных бенчмарков можно упомянуть AlpacaEval, MT-bench, HELM (Holistic Evaluation of Language Models) и BIG-Bench Hard (BBH).

Таблица 1. Составные бенчмарки, ориентированные на проверку возможностей

Бенчмарк	Основные возможности	Методики оценки
AlpacaEval ^[1]	Множество методик оценки, разнообразные датасеты, современные автоматические аннотаторы, метрики с контролем длины	Валидация живыми людьми, автоматическая оценка
MTBench ^[2]	80 многоэтапных вопросов, оценивает поток ведения беседы и способность следовать инструкциям	Современные LLM-оценщики (например, GPT-4)
HELM ^[3]	Широкий спектр сценариев, множество метрик (accuracy, калибровка, надёжность, справедливость, предубеждённость, токсичность, эффективность)	Оценка по множеству метрик, целевая оценка
BIG-Bench Hard (BBH) ^[4]	23 задачи, требующие многоэтапных рассуждений, включают в себя логическую дедукцию, арифметику, рассуждения на основе здравого смысла	Few-shot-промтинг, цепочки рассуждений (Chain-of-Thought, CoT)

Статические и динамические бенчмарки LLM

Большинство бенчмарков статично, то есть состоит из неизменного набора вопросов или задач, не меняющихся со временем; однако некоторые бенчмарки динамичны, в них постоянно добавляются новые вопросы или задачи. Это помогает поддерживать их релевантность и предотвращает переобучение моделей под конкретный датасет. Примерами таких бенчмарков могут служить LMSYS Chatbot Arena, LiveBench.

Таблица 2. Динамические бенчмарки

Бенчмарк	Основные возможности	Методики оценки
LiveBench ^[5]	Ежемесячное добавление дополнительных вопросов из новых датасетов, научных статей, новостей и кратких обзоров фильмов	Сравнение с имеющимися готовыми ответами для объективной оценки
Chatbot Arena ^[2]	Включает в себя обратную связь в реальном времени и предпочтения пользователей, взаимодействующих с чат-ботами	Непрерывные обновления на основании взаимодействия с пользователями и рейтингов

Спецификация типов систем

Для учёта всего разнообразия сфер применения LLM бенчмарки часто разрабатываются с расчётом на спецификации типов систем, чтобы обеспечить эффективность и надёжность моделей в реальном использовании. Эти бенчмарки делают упор на оценку того, насколько точно LLM справляется в различных интегрированных системах. Основные типы систем:

Системы Co-pilot: бенчмарки Co-pilot делают упор на то, насколько эффективно LLM может помогать пользователям в реальном времени, повышая продуктивность и эффективность в программных средах. Сюда входит способность модели понимать контекст, предлагать релевантные рекомендации, автоматизировать повторяющиеся задачи и интегрироваться с другими программными инструментами, поддерживающими рабочий процесс пользователей.‍
системы Retrieval-Augmented Generation (RAG): системы RAG сочетают в себе сильные стороны LLM с мощными механизмами извлечения информации. Такие бенчмарки оценивают способность модели извлекать релевантную информацию из внешних баз данных и внедрять эту информацию в целостные и контекстно подходящие ответы. Они особенно важны для областей применения, требующих актуальной или крайне специфичной информации.
‍Системы Tool-Use: бенчмарки Tool-use оценивают способности модели во взаимодействии с внешними инструментами и API. Сюда входит исполнение команд, получение данных и выполнение сложных операций на основании ввода пользователя. Эффективное tool-use позволяет LLM расширять их возможности, обеспечивая более универсальную и практичную работу в различных предметных областях, от анализа данных до разработки ПО.
‍Мультимодальные системы: мультимодальные бенчмарки тестируют способность модели обрабатывать и генерировать выходные данные различного типа, например, текста, изображений и аудио. Это важно для таких областей, как производство медиа, обучение и техподдержка, где требуются интегрированные ответы с учётом контекста в различных типах медиа. Бенчмарки оценивают, насколько хорошо модель понимает и комбинирует информацию разных модальностей для обеспечения целостных и релевантных результатов.
‍Встроенные системы: бенчмарки встроенных систем делают упор на интеграцию LLM в физические системы, например, в роботов или устройства IoT. Такие бенчмарки оценивают способность модели понимать физические пространства и перемещаться в них, взаимодействовать с объектами и выполнять задачи, требующие понимания физического мира. Это крайне важно для применения в робототехнике, домашних смарт-устройствах и других сферах, где LLM должны работать и реагировать в условиях реального мира.

Таблица 3. Бенчмарки спецификаций типов систем

Спецификация типа системы	Описание	Инструменты оценки
Co-pilot	Оценка помощи в реальном времени и повышения производительности в программных системах.	-
Retrieval-Augmented (RAG)	Оценка интеграции извлечения внешней информации с генерацией текста.	CARG ^[6], FreshLLM ^[7]
Tool-Use	Измерение эффективности использования моделями LLM внешних инструментов или API для выполнения задач.	TOOLE ^[8], WebArena ^[9], AgentBench ^[10]
Мультимодальные	Оценка точности для различных типов данных, например, текста, изображений и аудио.	MMMU ^[11], MathVista ^[12], AI2D ^[13], VQA ^[14], RealWorldQA ^[15]
Встроенные	Оценка моделей, интегрированных в физические системы, например, в роботов и устройства IoT.	BEHAVIOR-1K ^[16]

Цели оценки бенчмарками: ориентированные на возможности и ориентированные на риски

Ещё одно важное различие заключается в задачах проведения бенчмарков, это может быть проверка возможностей или рисков. Ориентированные на возможности бенчмарки оценивают эффективность LLM в выполнении конкретных задач, например, переводе текстов или резюмировании. Иными словами, эти бенчмарки важны для измерения функциональных сил модели. Примерами ориентированных на возможности LLM могут быть AlpacaEval, MT-bench, HELM, BIG-Bench Hard (BBH) и LiveBench.

Более того, основные показатели производительности — это подмножество индикаторов ориентированных на возможности бенчмарков, проверяющее эффективность LLM в генерации текста при помощи оценки таких ключевых метрик, как пропускная способность, задержка и затраты на токены.

Таблица 4. Основные индикаторы производительности

Метрика	Описание
Пропускная способность	Измеряет количество токенов, которое LLM может сгенерировать за секунду.
Задержка	Время, требуемое модели для того, чтобы начать генерировать токены после получения ввода (время до первого токена), и время на каждый выходной токен.
Затраты на токен	Вычислительные и финансовые затраты на генерацию токенов.

Ориентированные на риски бенчмарки делают упор на потенциальные уязвимости больших языковых моделей. Такие риски можно разбить на конкретные категории, например, надёжность, конфиденциальность, безопасность, справедливость, объясняемость, экоустойчивость и другие социальные аспекты. Выявляя и устраняя подобные риски, можно сделать так, чтобы LLM были не только эффективными, но и безопасными и этичными. Примеры составных бенчмарков: TrustLLM, AIRBench, Redteaming Resistance Benchmark.

Таблица 5. Составные бенчмарки, ориентированные на риски

Бенчмарк	Основные возможности	Методики оценки
TrustLLM ^[17]	Оценивает правдивость, безопасность, справедливость, надёжность, конфиденциальность и машинную этику	Использует заранее подготовленные вопросы по более чем тридцати датасетам для сравнения ответов LLM с ответами 16 популярных LLM
AIRBench ^[18]	Разнообразные зловредные промты, согласованные с регламентируемыми государствами категориями безопасности	Использует для оценки заранее подготовленные ответы с датасетами, соответствующими с законодательством конкретных регионов
Redteaming Resistance Benchmark ^[19]	Сгенерированные людьми высококачественные состязательные промты для тестирования на различные уязвимости	Для классификации ответов на опасные и безопасные используются заранее подготовленные ответы и инструменты наподобие LlamaGuard и GPT-4

Спецификация конечных задач

Для оценки реальных областей применения больших языковых моделей необходимо понимать весь обширный диапазон их задач. Поэтому для оценки конкретных возможностей LLM можно использовать задачи:

Понимание и ответы на вопросы: эта задача тестирует способность модели понимать и интерпретировать письменный текст. Она оценивает, насколько хорошо модель может отвечать на вопросы в беседах, демонстрируя уровень её понимания и удерживания информации.‍
Резюмирование: эта задача оценивает способность модели сжимать длинные тексты в короткие целостные резюме с сохранением важной информации и смысла. Для оценки качества таких резюме часто применяются инструменты наподобие ROUGE.
‍Классификация текстов: классификация текстов — это присвоение заранее созданных меток или категорий текстовому документу на основании его содержимого. Эта фундаментальная задача NLP применяется во множестве областей, например, в анализе тональности текстов, разметке тем, распознавании спама и так далее.
‍Перевод: эта задача оценивает точность и беглость модели в переводе текстов с одного языка на другой. Для оценки качества чаще всего применяются метрики, сравнивающие переводы модели с переводами живых людей.
‍Извлечение информации: эта задача тестирует способность модели выявлять и извлекать конкретные фрагменты информации из неструктурированного текста. Она включает в себя такие задачи, как распознавание именованных сущностей (named entity recognition, NER) и извлечение взаимосвязей, что очень важно при преобразовании текстовых данных в структурированные форматы.
‍Генерация кода: эта задача оценивает способность модели генерировать блоки кода или завершать код на основании описаний на естественном языке. Она включает в себя понимание языков программирования, синтаксиса и логического решения задач.
‍Математические рассуждения: эта задача измеряет способность модели понимать и решать математические задачи, в том числе концепции арифметики, алгебры, математического анализа и других областей математики. Она оценивает логические рассуждения и математические способности модели.
‍Рассуждения на основе здравого смысла: эта задача оценивает способность модели применять повседневные знания и логические рассуждения для ответов на вопросы или решения задач. Она оценивает понимание моделью мира и её способность создавать разумные инференсы.
‍Общие и предметные знания: эта задача тестирует способности модели в таких конкретных областях, как медицина, юриспруденция, финансы и проектирование. Она оценивает глубину и точность знаний модели в специализированных областях, что очень важно для сфер, требующих информации экспертного уровня.

Таблица 6. Бенчмарки конечных задач

Задачи	Примеры бенчмарков
Генерация кода	HumanEval ^[20], Spider (Complex and Cross-Domain Semantic Parsing and Text-to-SQL) ^[21]
Математические рассуждения	GSM8K ^[22], MATH ^[23]
Рассуждения на основе здравого смысла	CommonsenseQA ^[24], HellaSwag ^[25], WinoGrande ^[26], AI2 Reasoning Challenge (ARC) ^[27]
Общие и предметные знания	MMLU ^[28], Датасет LSAT (Law School Admission Test) ^[29], AlphaFin ^[30]

Ориентированные на риски бенчмарки: подробности

Бенчмарки надёжности

Бенчмарки надёжности применяются для оценки того, насколько хорошо работает LLM в различных условиях, в том числе в условиях шумных или состязательных входных данных. Такие задачи обеспечивают надёжность и согласованность модели в разнообразных и сложных сценариях.

Таблица 7. Бенчмарки оценки надёжности

Область оценки надёжности	Описание	Бенчмарки
Исследование правдивости	Проверка точности объяснений модели.	TruthfulQA ^[31]
Проверка надёжности понимания	Оценка того, насколько хорошо модель понимает вопросы и отвечает на них в сложных сценариях.	AdversarialQA ^[32]
Стабильность извлечения длинного контекста	Оценка точности выполнения задач, в которых релевантная информация погребена в больших объёмах нерелевантных данных.	Needle-in-a-Haystack ^[33]
Стабильность при модификации токенов промтов	Оценка стабильности точности модели при незначительном изменении промтов.	AART (Adversarial and Robustness Testing) ^[34]

Бенчмарки безопасности

Бенчмарки безопасности делают упор на устойчивость модели к атакам, например,
отравлению данных или эксплойтам, обеспечивая проверку целостности и устойчивости модели.

Таблица 8. Бенчмарки оценки безопасности

Сфера оценки безопасности	Описание	Бенчмарки
Практики небезопасного кода	Выявление и устранение практик небезопасного кодинга.	CyberSecEval 2.0 ^[35]
Повышенная безопасность	Оценка механизмов повышенной безопасности.	CyberSecEval 2.0 ^[35]
Джейлбрейкинг	Оценка уязвимости модели к манипуляциям или обходу защиты.	Do-anything-now ^[36]

Бенчмарки конфиденциальности

Бенчмарки конфиденциальности оценивают способность модели защищать уязвимую информацию, обеспечивая конфиденциальность и безопасность данных и взаимодействий с пользователем.

Таблица 9. Бенчмарки оценки конфиденциальности

Область оценки конфиденциальности	Описание	Бенчмарки
Утечка системных или пользовательских промтов	Проверка того, что модель не допускает утечки конфиденциальных промтов.	EronEmail ^[37]
Осознание конфиденциальности	Оценка понимания концепции конфиденциальной информации и обращения с ней.	ConfAIde ^[38]

Бенчмарки справедливости

Бенчмарки справедливости оценивают ответы модели на непредвзятость и беспристрастность к различным демографическим группам, что позволяет повышать инклюзивность и предотвращать дискриминацию.

Таблица 10. Бенчмарки оценки справедливости

Область оценки справедливости	Описание	Бенчмарки
Генерация явных контрфактических демографических дескрипторов	Тестирование ответов модели на различные демографические дескрипторы.	BBQ ^[39], RedditBias ^[40], STEREOSET ^[41]
Косвенные предубеждения относительно имён и языков	Выявление предубеждений, связанных с именами и другими характеристиками.	BOLD ^[42], TwitterAAE ^[43], CrowS-Pairs ^[44]
Тест согласованности этических взглядов	Проверка результатов работы модели на соответствие этическим стандартам.	Ethics ^[45], SOCIAL CHEMISTRY 101 ^[46]
Справедливость в контексте найма	Оценка предубеждений в контексте найма.	JobFair ^[47]

Бенчмарки объясняемости

Бенчмарки объясняемости измеряют, насколько хорошо LLM справляется с генерацией понятных и прозрачных рассуждений относительно результатов своей работы, повышая доверие и наглядность.

Таблица 11. Бенчмарки оценки объясняемости

Область оценки объясняемости	Описание	Бенчмарки
Способность создания цепочек рассуждений (Chain-of-thought)	Оценка логической целостности рассуждений модели.	Reveal ^[48]
Эффективность объяснений	Измерение общей эффективности предоставления чётких объяснений.	e-SNLI ^[49]
Тенденции к введению в заблуждение	Проверка тенденций к обману в объяснениях модели.	-
Тенденции к заискиванию	Оценка склонности модели соглашаться с пользовательским вводом.	SycophancyEval ^[50]

Бенчмарки экоустойчивости

Оценки экоустойчивости (sustainability) оценивают влияние обучения и развёртывания LLM на окружающую среду, стимулируют к применению экологически безопасных практик и эффективности использования ресурсов.

Таблица 12. Бенчмарки оценки экоустойчивости

Область оценки влияния на экоустойчивость	Описание	Бенчмарки
FLOPS, затрачиваемые при обучении и инференсах	Измерение требуемых вычислительных ресурсов.	FLOPS инференсов, FLOPS обучения
Углеродный след	Оценка влияния модели на окружающую среду.	Потребление энергии при обучении

Бенчмарки влияния на общество

Бенчмарки влияния на общество охватывают широкий спектр вопросов, в том числе социальные и этические последствия применения LLM; они гарантируют положительное влияние моделей на общество.

Таблица 13. Бенчмарки оценки влияния на общество

Область оценки влияния на общество	Описание	Бенчмарки
Нарушение авторских прав	Проверка того, что модель не генерирует контент, нарушающий авторские права и права на копирование.	CopyrightLLMs ^[51]
Политическое влияние	Оценка потенциального влияния на политические мнения и решения.	-
Воздействие на рынок	Оценка влияния модели на динамику рынков.	-

Благодаря такому многогранному подходу можно обеспечить тщательную проверку LLM на всевозможные риски, повысить доверие к модели и её надёжность.

Заключение

Стремительное развитие больших языковых моделей (LLMs) выявил большую потребность в подробных и надёжных бенчмарках. Такие бенчмарки не только помогают в оценке возможностей LLM, но и позволяют обнаруживать потенциальные риски и этические трудности.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными” ^[52]

Автор: kucev

Источник ^[53]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/benchmarki/397490

Ссылки в тексте:

[1] AlpacaEval: https://github.com/tatsu-lab/alpaca_eval

[2] MTBench: https://lmsys.org/blog/2023-06-22-leaderboard/

[3] HELM: https://crfm.stanford.edu/helm/lite/latest/

[4] BIG-Bench Hard (BBH): https://paperswithcode.com/dataset/bbh

[5] LiveBench: https://livebench.ai/

[6] CARG: https://arxiv.org/abs/2406.04744

[7] FreshLLM: https://arxiv.org/abs/2310.03214

[8] TOOLE: https://paperswithcode.com/paper/metatool-benchmark-deciding-whether-to-use

[9] WebArena: https://arxiv.org/abs/2307.13854

[10] AgentBench: https://openreview.net/forum?id=zAdUB0aCTQ

[11] MMMU: https://mmmu-benchmark.github.io/

[12] MathVista: https://arxiv.org/abs/2310.02255

[13] AI2D: https://paperswithcode.com/dataset/ai2d

[14] VQA: https://visualqa.org/

[15] RealWorldQA: https://huggingface.co/datasets/visheratin/realworldqa

[16] BEHAVIOR-1K: https://arxiv.org/abs/2403.09227

[17] TrustLLM: https://github.com/TrustLLMBenchmark/TrustLLM-Website

[18] AIRBench: https://crfm.stanford.edu/helm/air-bench/latest/

[19] Redteaming Resistance Benchmark: https://huggingface.co/spaces/HaizeLabs/red-teaming-resistance-benchmark

[20] HumanEval: https://github.com/openai/human-eval

[21] Spider (Complex and Cross-Domain Semantic Parsing and Text-to-SQL): https://yale-lily.github.io/spider

[22] GSM8K: https://github.com/openai/grade-school-math

[23] MATH: https://github.com/hendrycks/math

[24] CommonsenseQA: https://www.tau-nlp.org/commonsenseqa

[25] HellaSwag: https://rowanzellers.com/hellaswag/

[26] WinoGrande: https://mosaic.allenai.org/projects/winogrande

[27] AI2 Reasoning Challenge (ARC): https://allenai.org/data/arc

[28] MMLU: https://github.com/hendrycks/test

[29] Датасет LSAT (Law School Admission Test): https://www.lsac.org/data-research

[30] AlphaFin: https://github.com/AlphaFin-proj/AlphaFin

[31] TruthfulQA: https://github.com/sylinrl/TruthfulQA

[32] AdversarialQA: https://github.com/maxbartolo/adversarialQA

[33] Needle-in-a-Haystack: https://blog.langchain.dev/multi-needle-in-a-haystack/

[34] AART (Adversarial and Robustness Testing): https://github.com/google-research-datasets/aart-ai-safety-dataset

[35] CyberSecEval 2.0: https://github.com/meta-llama/PurpleLlama

[36] Do-anything-now: https://github.com/verazuo/jailbreak_llms

[37] EronEmail: https://www.cs.cmu.edu/~enron/

[38] ConfAIde: https://github.com/skywalker023/confaide

[39] BBQ: https://github.com/nyu-mll/BBQ

[40] RedditBias: https://github.com/umanlp/RedditBias

[41] STEREOSET: https://chatgpt.com/c/6fde427e-1112-4c02-8483-83891c4bf309

[42] BOLD: https://github.com/amazon-science/bold

[43] TwitterAAE: https://github.com/slanglab/twitteraae

[44] CrowS-Pairs: https://github.com/nyu-mll/crows-pairs

[45] Ethics: https://github.com/hendrycks/ethics

[46] SOCIAL CHEMISTRY 101: https://github.com/mbforbes/social-chemistry-101

[47] JobFair: https://arxiv.org/abs/2406.15484

[48] Reveal: https://arxiv.org/abs/2402.00559

[49] e-SNLI: https://arxiv.org/abs/1812.01193

[50] SycophancyEval: https://arxiv.org/abs/2310.13548

[51] CopyrightLLMs: https://github.com/coastalcph/CopyrightLLMs

[52] “Роман с данными”: https://t.me/+2htzoD8QIFs0Njli

[53] Источник: https://habr.com/ru/articles/845510/?utm_campaign=845510&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.