Рубрика «бенчмарки» - 4

ARC Prize 2024: Второй после Теста Тьюринга?

2024-12-24 в 17:40, admin, рубрики: llm, бенчмарки, ИИ, Модель o3 от OpenAI, сильный ИИ, сравнение LLM

Нейросети, готовые к схватке за ARC Prize

Предлагаю обсудить перевод оригинальной статьи с методикой интересного теста ARC Prize, - об него сломали виртуальные зубы все LLM, кроме нашумевшей o3 от OpenAI Читать полностью »

Лучшие крупные языковые модели в ноябре 2024 г

2024-12-16 в 13:46, admin, рубрики: Claude 3.5 v2 Update, gpt-4o, llm, LLM Benchmark v2, qwen, Text-to-SQL, бенчмарки

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
GPT-4o от 20 ноября — ТОП-3!
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
Qwen QwQ 32B Preview — слишком умный

Читать полностью »

BABILong — бенчмарк для оценки LLM на больших контекстах

2024-12-16 в 7:24, admin, рубрики: benchmark, llm, бенчмарки, длинный контекст

Привет! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста, и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который привезли Читать полностью »

Сравнение эффективности компиляторов под Эльбрус на примере решета Эратосфена

2024-12-13 в 15:15, admin, рубрики: бенчмарки, Компиляторы, МЦСТ, Процессоры, решето Эратосфена, тесты производительности, Эльбрус, Эльбрус-8С

На Хабре уже тестирование Эльбрусов на разных языках программирования (например, здесь). И данный обзор стоит рассматривать как дополнение, с ещё одним тестом, новыми версиями компиляторов и новыми участниками (Rust, С++). Так же обзор сделан с упором на тест возможностей именно компиляторов и настройки оптимизации.

Тестовые стенды:

x86:

AMD FX-6300@3500 Мгц. (турбобуст отключен).
Intel Celeron (Haswell) G1820@2700 Мгц.

Софт:

Ubuntu 22.04.

Java: OpenJDK Runtime Environment (build 11.0.25+9-post-Ubuntu-1ubuntu122.04).

Rust: rustc / cargo v.1.83.0; LLVM version: 19.1.1.

Читать полностью »

Сколько памяти нужно в 2024 году для выполнения миллиона конкурентных задач?

2024-12-07 в 5:44, admin, рубрики: graalvm, nodejs, асинхронные задачи, бенчмарки, конкурентность

Помните сравнение потребления памяти для асинхронного программирования на популярных языках 2023 года?

Мне стало любопытно, как поменялась ситуация за один год на примере самых новых версий языков.

Давайте снова проведём бенчмарки и изучим результаты!

Бенчмарк

Программа для бенчмаркинга будет той же, что и в прошлом году:

Запустим N конкурентных задач, каждая будет ждать в течение 10 секунд. После завершения всех задач программа завершается. Количество задач указывается как аргумент командной строки.

Читать полностью »

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

2024-11-28 в 10:07, admin, рубрики: AI, data science, llm, machine learning, nlp, бенчмарки

Когда говорят про ИИ в страховании, все обычно представляют классический ML и вероятностные модели (они конечно же имеются у нас в большом количестве). Страховая отрасль богата всевозможными данными (телеметрия с авто, внешние условия, данные с сайтов и партнёров, и прочее). Все эти большие данные нужны для создания лучших предложений клиентам в рамках кастомизируемых и вариативных страховых продуктах.

Именно с ними работают математики, которых, чтобы было веселее, в страховании называют сложно выговариваемыми словами «актуарии» и «андеррайтеры».

Читать полностью »

Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

2024-11-28 в 7:45, admin, рубрики: AI, llm, бенчмарки, ИИ, искусственный интеллект, критерии оценки

Многие из самых популярных бенчмарков для моделей ИИ устарели или плохо разработаны.

Дисклеймер: это вольный перевод статьиЧитать полностью »

Человек и LLM: как построить метрики для оценки моделей

2024-11-28 в 7:02, admin, рубрики: llm, ml, ml-метрики, бенчмарки, машинное обучение, метрики, нейросети, оценка качества, языковые модели

Привет, меня зовут Ирина Барская, и я руководитель службы аналитики и исследований в Яндексе. А это значит, что я и моя команда каждый день думаем, как оценивать качество работы генеративных моделей, какие при этом смотреть метрики, как вообще понять, хорошая ли модель у нас получилась.

Читать полностью »

Сравнение бенчмарков LLM для разработки программного обеспечения

2024-11-14 в 13:33, admin, рубрики: Aider, BigCodeBench, ClassEval, CodeXGLUE, DevQualityEval, HumanEval, llm, SWE-bench, бенчмарки, бенчмаркинг

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Серия публикаций о бенчмаркинге LLM

Прочтите все остальные статьи из серии Symflower об оценке LLM и ознакомьтесь с нашим последним подробным обзором Читать полностью »

Полный гид по бенчмаркам LLM

2024-09-24 в 12:28, admin, рубрики: AlpacaEval, CyberSecEval, llm, llmarena, MTBench, SycophancyEval, TrustLLM, TruthfulQA, бенчмарки

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «бенчмарки» - 4

ARC Prize 2024: Второй после Теста Тьюринга?

Лучшие крупные языковые модели в ноябре 2024 г

BABILong — бенчмарк для оценки LLM на больших контекстах

Сравнение эффективности компиляторов под Эльбрус на примере решета Эратосфена

Сколько памяти нужно в 2024 году для выполнения миллиона конкурентных задач?

Бенчмарк

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

Человек и LLM: как построить метрики для оценки моделей

Сравнение бенчмарков LLM для разработки программного обеспечения

Серия публикаций о бенчмаркинге LLM

Полный гид по бенчмаркам LLM