- PVSM.RU - https://www.pvsm.ru -

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.
В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Основные принципы:
Бенчмарки LLM используются для оценки точности LLM при помощи стандартизированных задач или промтов. Этот процесс включает в себя выбор задач, генерацию входных промтов и получение ответов моделей с численной оценкой точности моделей. Такая оценка крайне важна при аудитах ИИ, она позволяет объективно измерять параметры LLM, обеспечивая надёжность и этичность моделей с целью поддержания доверия общества и дальнейшего ответственного развития ИИ.
Бенчмарки для LLM можно представить как два спектра: от простых к сложным и от ориентированных на риски до ориентированных на возможности. Таким образом образуются основные четыре сегмента бенчмарков. Сложные бенчмарки охватывают множество различных целей оценки и типов систем, а простые бенчмарки направлены на конкретную цель. Ориентированные на возможности бенчмарки делают упор на оценку точности выполнения задач, а ориентированные на риски оценивают потенциальные риски моделей.

Многие бенчмарки LLM достаточно прямолинейны, у них есть конкретные цели и методики оценки, но новые разрабатываемые бенчмарки становятся всё более сложными. Простые датасеты обычно делают упор на отдельные конкретные задачи, предоставляя чёткие метрики. Составные же датасеты включают в себя множественные цели и методологии. Эти сложные бенчмарки позволяют одновременно оценивать множество разных граней точности LLM, обеспечивая более целостную картину её возможностей и ограничений. Среди таких сложных бенчмарков можно упомянуть AlpacaEval, MT-bench, HELM (Holistic Evaluation of Language Models) и BIG-Bench Hard (BBH).
Таблица 1. Составные бенчмарки, ориентированные на проверку возможностей
| Бенчмарк | Основные возможности | Методики оценки |
|---|---|---|
| AlpacaEval [1] | Множество методик оценки, разнообразные датасеты, современные автоматические аннотаторы, метрики с контролем длины | Валидация живыми людьми, автоматическая оценка |
| MTBench [2] | 80 многоэтапных вопросов, оценивает поток ведения беседы и способность следовать инструкциям | Современные LLM-оценщики (например, GPT-4) |
| HELM [3] | Широкий спектр сценариев, множество метрик (accuracy, калибровка, надёжность, справедливость, предубеждённость, токсичность, эффективность) | Оценка по множеству метрик, целевая оценка |
| BIG-Bench Hard (BBH) [4] | 23 задачи, требующие многоэтапных рассуждений, включают в себя логическую дедукцию, арифметику, рассуждения на основе здравого смысла | Few-shot-промтинг, цепочки рассуждений (Chain-of-Thought, CoT) |
Большинство бенчмарков статично, то есть состоит из неизменного набора вопросов или задач, не меняющихся со временем; однако некоторые бенчмарки динамичны, в них постоянно добавляются новые вопросы или задачи. Это помогает поддерживать их релевантность и предотвращает переобучение моделей под конкретный датасет. Примерами таких бенчмарков могут служить LMSYS Chatbot Arena, LiveBench.
Таблица 2. Динамические бенчмарки
| Бенчмарк | Основные возможности | Методики оценки |
|---|---|---|
| LiveBench [5] | Ежемесячное добавление дополнительных вопросов из новых датасетов, научных статей, новостей и кратких обзоров фильмов | Сравнение с имеющимися готовыми ответами для объективной оценки |
| Chatbot Arena [2] | Включает в себя обратную связь в реальном времени и предпочтения пользователей, взаимодействующих с чат-ботами | Непрерывные обновления на основании взаимодействия с пользователями и рейтингов |
Для учёта всего разнообразия сфер применения LLM бенчмарки часто разрабатываются с расчётом на спецификации типов систем, чтобы обеспечить эффективность и надёжность моделей в реальном использовании. Эти бенчмарки делают упор на оценку того, насколько точно LLM справляется в различных интегрированных системах. Основные типы систем:
Таблица 3. Бенчмарки спецификаций типов систем
| Спецификация типа системы | Описание | Инструменты оценки |
|---|---|---|
| Co-pilot | Оценка помощи в реальном времени и повышения производительности в программных системах. | - |
| Retrieval-Augmented (RAG) | Оценка интеграции извлечения внешней информации с генерацией текста. | CARG [6], FreshLLM [7] |
| Tool-Use | Измерение эффективности использования моделями LLM внешних инструментов или API для выполнения задач. | TOOLE [8], WebArena [9], AgentBench [10] |
| Мультимодальные | Оценка точности для различных типов данных, например, текста, изображений и аудио. | MMMU [11], MathVista [12], AI2D [13], VQA [14], RealWorldQA [15] |
| Встроенные | Оценка моделей, интегрированных в физические системы, например, в роботов и устройства IoT. | BEHAVIOR-1K [16] |
Ещё одно важное различие заключается в задачах проведения бенчмарков, это может быть проверка возможностей или рисков. Ориентированные на возможности бенчмарки оценивают эффективность LLM в выполнении конкретных задач, например, переводе текстов или резюмировании. Иными словами, эти бенчмарки важны для измерения функциональных сил модели. Примерами ориентированных на возможности LLM могут быть AlpacaEval, MT-bench, HELM, BIG-Bench Hard (BBH) и LiveBench.
Более того, основные показатели производительности — это подмножество индикаторов ориентированных на возможности бенчмарков, проверяющее эффективность LLM в генерации текста при помощи оценки таких ключевых метрик, как пропускная способность, задержка и затраты на токены.
Таблица 4. Основные индикаторы производительности
| Метрика | Описание |
|---|---|
| Пропускная способность | Измеряет количество токенов, которое LLM может сгенерировать за секунду. |
| Задержка | Время, требуемое модели для того, чтобы начать генерировать токены после получения ввода (время до первого токена), и время на каждый выходной токен. |
| Затраты на токен | Вычислительные и финансовые затраты на генерацию токенов. |
Ориентированные на риски бенчмарки делают упор на потенциальные уязвимости больших языковых моделей. Такие риски можно разбить на конкретные категории, например, надёжность, конфиденциальность, безопасность, справедливость, объясняемость, экоустойчивость и другие социальные аспекты. Выявляя и устраняя подобные риски, можно сделать так, чтобы LLM были не только эффективными, но и безопасными и этичными. Примеры составных бенчмарков: TrustLLM, AIRBench, Redteaming Resistance Benchmark.
Таблица 5. Составные бенчмарки, ориентированные на риски
| Бенчмарк | Основные возможности | Методики оценки |
|---|---|---|
| TrustLLM [17] | Оценивает правдивость, безопасность, справедливость, надёжность, конфиденциальность и машинную этику | Использует заранее подготовленные вопросы по более чем тридцати датасетам для сравнения ответов LLM с ответами 16 популярных LLM |
| AIRBench [18] | Разнообразные зловредные промты, согласованные с регламентируемыми государствами категориями безопасности | Использует для оценки заранее подготовленные ответы с датасетами, соответствующими с законодательством конкретных регионов |
| Redteaming Resistance Benchmark [19] | Сгенерированные людьми высококачественные состязательные промты для тестирования на различные уязвимости | Для классификации ответов на опасные и безопасные используются заранее подготовленные ответы и инструменты наподобие LlamaGuard и GPT-4 |
Для оценки реальных областей применения больших языковых моделей необходимо понимать весь обширный диапазон их задач. Поэтому для оценки конкретных возможностей LLM можно использовать задачи:
Таблица 6. Бенчмарки конечных задач
| Задачи | Примеры бенчмарков |
|---|---|
| Генерация кода | HumanEval [20], Spider (Complex and Cross-Domain Semantic Parsing and Text-to-SQL) [21] |
| Математические рассуждения | GSM8K [22], MATH [23] |
| Рассуждения на основе здравого смысла | CommonsenseQA [24], HellaSwag [25], WinoGrande [26], AI2 Reasoning Challenge (ARC) [27] |
| Общие и предметные знания | MMLU [28], Датасет LSAT (Law School Admission Test) [29], AlphaFin [30] |
Бенчмарки надёжности применяются для оценки того, насколько хорошо работает LLM в различных условиях, в том числе в условиях шумных или состязательных входных данных. Такие задачи обеспечивают надёжность и согласованность модели в разнообразных и сложных сценариях.
Таблица 7. Бенчмарки оценки надёжности
| Область оценки надёжности | Описание | Бенчмарки |
|---|---|---|
| Исследование правдивости | Проверка точности объяснений модели. | TruthfulQA [31] |
| Проверка надёжности понимания | Оценка того, насколько хорошо модель понимает вопросы и отвечает на них в сложных сценариях. | AdversarialQA [32] |
| Стабильность извлечения длинного контекста | Оценка точности выполнения задач, в которых релевантная информация погребена в больших объёмах нерелевантных данных. | Needle-in-a-Haystack [33] |
| Стабильность при модификации токенов промтов | Оценка стабильности точности модели при незначительном изменении промтов. | AART (Adversarial and Robustness Testing) [34] |
Бенчмарки безопасности делают упор на устойчивость модели к атакам, например,
отравлению данных или эксплойтам, обеспечивая проверку целостности и устойчивости модели.
Таблица 8. Бенчмарки оценки безопасности
| Сфера оценки безопасности | Описание | Бенчмарки |
|---|---|---|
| Практики небезопасного кода | Выявление и устранение практик небезопасного кодинга. | CyberSecEval 2.0 [35] |
| Повышенная безопасность | Оценка механизмов повышенной безопасности. | CyberSecEval 2.0 [35] |
| Джейлбрейкинг | Оценка уязвимости модели к манипуляциям или обходу защиты. | Do-anything-now [36] |
Бенчмарки конфиденциальности оценивают способность модели защищать уязвимую информацию, обеспечивая конфиденциальность и безопасность данных и взаимодействий с пользователем.
Таблица 9. Бенчмарки оценки конфиденциальности
| Область оценки конфиденциальности | Описание | Бенчмарки |
|---|---|---|
| Утечка системных или пользовательских промтов | Проверка того, что модель не допускает утечки конфиденциальных промтов. | EronEmail [37] |
| Осознание конфиденциальности | Оценка понимания концепции конфиденциальной информации и обращения с ней. | ConfAIde [38] |
Бенчмарки справедливости оценивают ответы модели на непредвзятость и беспристрастность к различным демографическим группам, что позволяет повышать инклюзивность и предотвращать дискриминацию.
Таблица 10. Бенчмарки оценки справедливости
| Область оценки справедливости | Описание | Бенчмарки |
|---|---|---|
| Генерация явных контрфактических демографических дескрипторов | Тестирование ответов модели на различные демографические дескрипторы. | BBQ [39], RedditBias [40], STEREOSET [41] |
| Косвенные предубеждения относительно имён и языков | Выявление предубеждений, связанных с именами и другими характеристиками. | BOLD [42], TwitterAAE [43], CrowS-Pairs [44] |
| Тест согласованности этических взглядов | Проверка результатов работы модели на соответствие этическим стандартам. | Ethics [45], SOCIAL CHEMISTRY 101 [46] |
| Справедливость в контексте найма | Оценка предубеждений в контексте найма. | JobFair [47] |
Бенчмарки объясняемости измеряют, насколько хорошо LLM справляется с генерацией понятных и прозрачных рассуждений относительно результатов своей работы, повышая доверие и наглядность.
Таблица 11. Бенчмарки оценки объясняемости
| Область оценки объясняемости | Описание | Бенчмарки |
|---|---|---|
| Способность создания цепочек рассуждений (Chain-of-thought) | Оценка логической целостности рассуждений модели. | Reveal [48] |
| Эффективность объяснений | Измерение общей эффективности предоставления чётких объяснений. | e-SNLI [49] |
| Тенденции к введению в заблуждение | Проверка тенденций к обману в объяснениях модели. | - |
| Тенденции к заискиванию | Оценка склонности модели соглашаться с пользовательским вводом. | SycophancyEval [50] |
Оценки экоустойчивости (sustainability) оценивают влияние обучения и развёртывания LLM на окружающую среду, стимулируют к применению экологически безопасных практик и эффективности использования ресурсов.
Таблица 12. Бенчмарки оценки экоустойчивости
| Область оценки влияния на экоустойчивость | Описание | Бенчмарки |
|---|---|---|
| FLOPS, затрачиваемые при обучении и инференсах | Измерение требуемых вычислительных ресурсов. | FLOPS инференсов, FLOPS обучения |
| Углеродный след | Оценка влияния модели на окружающую среду. | Потребление энергии при обучении |
Бенчмарки влияния на общество охватывают широкий спектр вопросов, в том числе социальные и этические последствия применения LLM; они гарантируют положительное влияние моделей на общество.
Таблица 13. Бенчмарки оценки влияния на общество
| Область оценки влияния на общество | Описание | Бенчмарки |
|---|---|---|
| Нарушение авторских прав | Проверка того, что модель не генерирует контент, нарушающий авторские права и права на копирование. | CopyrightLLMs [51] |
| Политическое влияние | Оценка потенциального влияния на политические мнения и решения. | - |
| Воздействие на рынок | Оценка влияния модели на динамику рынков. | - |
Благодаря такому многогранному подходу можно обеспечить тщательную проверку LLM на всевозможные риски, повысить доверие к модели и её надёжность.

Стремительное развитие больших языковых моделей (LLMs) выявил большую потребность в подробных и надёжных бенчмарках. Такие бенчмарки не только помогают в оценке возможностей LLM, но и позволяют обнаруживать потенциальные риски и этические трудности.
Автор: kucev
Источник [53]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/benchmarki/397490
Ссылки в тексте:
[1] AlpacaEval: https://github.com/tatsu-lab/alpaca_eval
[2] MTBench: https://lmsys.org/blog/2023-06-22-leaderboard/
[3] HELM: https://crfm.stanford.edu/helm/lite/latest/
[4] BIG-Bench Hard (BBH): https://paperswithcode.com/dataset/bbh
[5] LiveBench: https://livebench.ai/
[6] CARG: https://arxiv.org/abs/2406.04744
[7] FreshLLM: https://arxiv.org/abs/2310.03214
[8] TOOLE: https://paperswithcode.com/paper/metatool-benchmark-deciding-whether-to-use
[9] WebArena: https://arxiv.org/abs/2307.13854
[10] AgentBench: https://openreview.net/forum?id=zAdUB0aCTQ
[11] MMMU: https://mmmu-benchmark.github.io/
[12] MathVista: https://arxiv.org/abs/2310.02255
[13] AI2D: https://paperswithcode.com/dataset/ai2d
[14] VQA: https://visualqa.org/
[15] RealWorldQA: https://huggingface.co/datasets/visheratin/realworldqa
[16] BEHAVIOR-1K: https://arxiv.org/abs/2403.09227
[17] TrustLLM: https://github.com/TrustLLMBenchmark/TrustLLM-Website
[18] AIRBench: https://crfm.stanford.edu/helm/air-bench/latest/
[19] Redteaming Resistance Benchmark: https://huggingface.co/spaces/HaizeLabs/red-teaming-resistance-benchmark
[20] HumanEval: https://github.com/openai/human-eval
[21] Spider (Complex and Cross-Domain Semantic Parsing and Text-to-SQL): https://yale-lily.github.io/spider
[22] GSM8K: https://github.com/openai/grade-school-math
[23] MATH: https://github.com/hendrycks/math
[24] CommonsenseQA: https://www.tau-nlp.org/commonsenseqa
[25] HellaSwag: https://rowanzellers.com/hellaswag/
[26] WinoGrande: https://mosaic.allenai.org/projects/winogrande
[27] AI2 Reasoning Challenge (ARC): https://allenai.org/data/arc
[28] MMLU: https://github.com/hendrycks/test
[29] Датасет LSAT (Law School Admission Test): https://www.lsac.org/data-research
[30] AlphaFin: https://github.com/AlphaFin-proj/AlphaFin
[31] TruthfulQA: https://github.com/sylinrl/TruthfulQA
[32] AdversarialQA: https://github.com/maxbartolo/adversarialQA
[33] Needle-in-a-Haystack: https://blog.langchain.dev/multi-needle-in-a-haystack/
[34] AART (Adversarial and Robustness Testing): https://github.com/google-research-datasets/aart-ai-safety-dataset
[35] CyberSecEval 2.0: https://github.com/meta-llama/PurpleLlama
[36] Do-anything-now: https://github.com/verazuo/jailbreak_llms
[37] EronEmail: https://www.cs.cmu.edu/~enron/
[38] ConfAIde: https://github.com/skywalker023/confaide
[39] BBQ: https://github.com/nyu-mll/BBQ
[40] RedditBias: https://github.com/umanlp/RedditBias
[41] STEREOSET: https://chatgpt.com/c/6fde427e-1112-4c02-8483-83891c4bf309
[42] BOLD: https://github.com/amazon-science/bold
[43] TwitterAAE: https://github.com/slanglab/twitteraae
[44] CrowS-Pairs: https://github.com/nyu-mll/crows-pairs
[45] Ethics: https://github.com/hendrycks/ethics
[46] SOCIAL CHEMISTRY 101: https://github.com/mbforbes/social-chemistry-101
[47] JobFair: https://arxiv.org/abs/2406.15484
[48] Reveal: https://arxiv.org/abs/2402.00559
[49] e-SNLI: https://arxiv.org/abs/1812.01193
[50] SycophancyEval: https://arxiv.org/abs/2310.13548
[51] CopyrightLLMs: https://github.com/coastalcph/CopyrightLLMs
[52] “Роман с данными”: https://t.me/+2htzoD8QIFs0Njli
[53] Источник: https://habr.com/ru/articles/845510/?utm_campaign=845510&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.