Большие языковые модели (LLM) — это то будущее, которое уже случилось. Они генерируют тексты, пишут код и стихи, планируют и даже дают советы, как жить. Их уже используют в образовании, науке и медиа. Наверняка вы хоть раз использовали сервисы вроде GitHub Copilot, чтобы быстрее написать код. Согласитесь, это удобно.
Рубрика «Chatbot Arena»
От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году
2025-07-11 в 7:45, admin, рубрики: AI-сотрудники, Chatbot Arena, chatgpt, deepseek, llm, LLM-агенты, qwen, reasoning, TAU benchmark, большие языковые моделиLeaderboard Illusion: что не так с Chatbot Arena
2025-05-01 в 15:48, admin, рубрики: Chatbot Arena, бенчмарки, бенчмарки ИИ, большие языковые модели, БЯМ, завышенные ожидания, конфликты, научные публикации, пиар, статистикаКраткий обзор LLM бенчмарков
2024-10-17 в 7:15, admin, рубрики: Chatbot Arena, github copilot, GLUE, helm, llm, LLM Arena
Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).
Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать полностью »
