Рубрика «бенчмарки»

В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.

Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.

TL;DR.Читать полностью »

Синтетические тесты в вакууме не показывают реальной пользы нейросетей. Индустрии пора переходить на метрики, где во главе угла стоят люди и жизненный контекст

ИИ-бенчмарки больше не работают. И вот что с этим делать - 1

От переводчика:Читать полностью »

При использовании ИИ-инструментов для написания кода неизбежно возникает вопрос: а какая модель лучше? Часто синтетические бенчмарки не отражают реальной картины, модели при их обучении могут специально натаскиваться на прохождение этих бенчмарков. А между решением изолированных задач и работой с реальной кодовой базой есть существенная разница. Модель должна понять требования, разобраться в архитектуре проекта, корректно встроить новую функциональность и ничего не сломать.

Читать полностью »

Когда нейросеть решит то, что не решил никто? - 1

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальшеЧитать полностью »

Всем привет! Это моя первая статья на Хабре, так что буду рад любым комментариям. Я бы хотел затронуть одну из самых сложных и больных тем в IT и электронике, из-за которой создают сотни бенчмарков и тестов, но вопрос всё равно остается открытым: как сравнить 2 процессора? Какую архитектуру выбрать в конкретной задаче, когда у тебя ограниченный бюджет и условия?

Читать полностью »

Raspberry Pi eGPU vs PC GPU

Raspberry Pi eGPU vs PC GPU

С тех пор, как я научил графические карты AMDIntel и Nvidia работать с Raspberry Pi, меня мучил вопрос:

Читать полностью »

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.

Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.

На сегодня существует две версии этого теста. Так о чем же он?

ARC-AGI-1

История начинается в 2019 году со статьиЧитать полностью »

TL;DR
  • Провели РКИ на реальных задачах в крупных OSS-репозиториях: 16 опытных контрибьюторов, 246 задач (исправления, фичи, рефакторинг), на каждую задачу случайно разрешали/запрещали ИИ.

  • Инструменты при «разрешено»: в основном Cursor Pro + Claude 3.5/3.7; при «запрещено» — обычная работа без генеративного ИИ.

  • Главный итог: с ИИ задачи выполнялись в среднем на 19% дольше; качество PR сопоставимо между условиями.

  • Перцепция расходится с данными: разработчики ожидали ускорение (~24%) и постфактум тоже считали, что ускорились (~20%).

  • Читать полностью »

Предисловие переводчика

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

Читать полностью »

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода - 1

Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустилЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js