Рубрика «бенчмарки»

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

2026-05-12 в 6:15, admin, рубрики: ai-агенты, llm, агентные системы, Анализ и проектирование систем, бенчмарки, закон Гудхарта, критическое мышление, метрики качества, нейросети, оценка LLM

В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.

Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.

TL;DR.Читать полностью »

ИИ-бенчмарки больше не работают. И вот что с этим делать

2026-04-07 в 11:15, admin, рубрики: бенчмарки, ИИ, метрики, тестирование

Синтетические тесты в вакууме не показывают реальной пользы нейросетей. Индустрии пора переходить на метрики, где во главе угла стоят люди и жизненный контекст

ИИ-бенчмарки больше не работают. И вот что с этим делать - 1

От переводчика:Читать полностью »

Какая ИИ-модель лучше пишет код? Тестирую 8 популярных моделей на реальной задаче в opensource-проекте

2026-03-13 в 11:22, admin, рубрики: llm-модели, opencode, opensource, бенчмарки, ии-агенты

При использовании ИИ-инструментов для написания кода неизбежно возникает вопрос: а какая модель лучше? Часто синтетические бенчмарки не отражают реальной картины, модели при их обучении могут специально натаскиваться на прохождение этих бенчмарков. А между решением изолированных задач и работой с реальной кодовой базой есть существенная разница. Модель должна понять требования, разобраться в архитектуре проекта, корректно встроить новую функциональность и ничего не сломать.

Читать полностью »

Когда нейросеть решит то, что не решил никто?

2026-01-28 в 22:12, admin, рубрики: Epoch AI, FrontierMath, gemini, gpt-5, llm, research taste, бенчмарки, открытые задачи, теория чисел

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальше Читать полностью »

Core i9 vs Apple M2: как честно сравнивать калькуляторы с суперкомпьютерами

2026-01-07 в 23:02, admin, рубрики: архитектура процессоров, бенчмарки, выбор процессора, маркетинг, процессоры amd, процессоры intel

Всем привет! Это моя первая статья на Хабре, так что буду рад любым комментариям. Я бы хотел затронуть одну из самых сложных и больных тем в IT и электронике, из-за которой создают сотни бенчмарков и тестов, но вопрос всё равно остается открытым: как сравнить 2 процессора? Какую архитектуру выбрать в конкретной задаче, когда у тебя ограниченный бюджет и условия?

Читать полностью »

Большим GPU не нужны большие PC

2026-01-05 в 13:01, admin, рубрики: amd, llm, Nvidia, radeon, ruvds_переводы, бенчмарки, локальные нейросети

С тех пор, как я научил графические карты AMD, Intel и Nvidia работать с Raspberry Pi, меня мучил вопрос:

Читать полностью »

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

2025-12-12 в 17:29, admin, рубрики: arc-agi, OpenAI, бенчмарки, бенчмаркинг, генеративный ии, искусственный интеллект, машинное обучение, Новости, тестирование моделей

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.

Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.

На сегодня существует две версии этого теста. Так о чем же он?

ARC-AGI-1

История начинается в 2019 году со статьиЧитать полностью »

Оценка влияния ИИ на производительность опытных разработчиков открытого ПО

2025-10-28 в 12:38, admin, рубрики: claude, cursor, RCT, автоматизация НИОКР, бенчмарки, генерация кода, ии-инструменты, оценка эффективности, производительность

TL;DR

Провели РКИ на реальных задачах в крупных OSS-репозиториях: 16 опытных контрибьюторов, 246 задач (исправления, фичи, рефакторинг), на каждую задачу случайно разрешали/запрещали ИИ.
Инструменты при «разрешено»: в основном Cursor Pro + Claude 3.5/3.7; при «запрещено» — обычная работа без генеративного ИИ.
Главный итог: с ИИ задачи выполнялись в среднем на 19% дольше; качество PR сопоставимо между условиями.
Перцепция расходится с данными: разработчики ожидали ускорение (~24%) и постфактум тоже считали, что ускорились (~20%).
Читать полностью »

Часть 5. Обзор техник оценки качества систем RAG

2025-09-19 в 20:43, admin, рубрики: nlp, nlp обработка текста, rag, rag pipeline, база знаний, бенчмарки, искусственный интеллект, метрики

Предисловие переводчика

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

Читать полностью »

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

2025-09-18 в 11:00, admin, рубрики: llm, llm-агент, llm-модели, агентное программирование, бенчмарки

Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «бенчмарки»

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

ИИ-бенчмарки больше не работают. И вот что с этим делать

Какая ИИ-модель лучше пишет код? Тестирую 8 популярных моделей на реальной задаче в opensource-проекте

Когда нейросеть решит то, что не решил никто?

Core i9 vs Apple M2: как честно сравнивать калькуляторы с суперкомпьютерами

Большим GPU не нужны большие PC

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

ARC-AGI-1

Оценка влияния ИИ на производительность опытных разработчиков открытого ПО

Часть 5. Обзор техник оценки качества систем RAG

Предисловие переводчика

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода