Рубрика «бенчмарки»

Всем привет! Это моя первая статья на Хабре, так что буду рад любым комментариям. Я бы хотел затронуть одну из самых сложных и больных тем в IT и электронике, из-за которой создают сотни бенчмарков и тестов, но вопрос всё равно остается открытым: как сравнить 2 процессора? Какую архитектуру выбрать в конкретной задаче, когда у тебя ограниченный бюджет и условия?

Читать полностью »

Raspberry Pi eGPU vs PC GPU

Raspberry Pi eGPU vs PC GPU

С тех пор, как я научил графические карты AMDIntel и Nvidia работать с Raspberry Pi, меня мучил вопрос:

Читать полностью »

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.

Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.

На сегодня существует две версии этого теста. Так о чем же он?

ARC-AGI-1

История начинается в 2019 году со статьиЧитать полностью »

TL;DR
  • Провели РКИ на реальных задачах в крупных OSS-репозиториях: 16 опытных контрибьюторов, 246 задач (исправления, фичи, рефакторинг), на каждую задачу случайно разрешали/запрещали ИИ.

  • Инструменты при «разрешено»: в основном Cursor Pro + Claude 3.5/3.7; при «запрещено» — обычная работа без генеративного ИИ.

  • Главный итог: с ИИ задачи выполнялись в среднем на 19% дольше; качество PR сопоставимо между условиями.

  • Перцепция расходится с данными: разработчики ожидали ускорение (~24%) и постфактум тоже считали, что ускорились (~20%).

  • Читать полностью »

Предисловие переводчика

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

Читать полностью »

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода - 1

Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустилЧитать полностью »

Когда речь заходит о гиперпоточности, то как правило всё начинается с того, что нам показывают красивые картинки с квадратиками типа такой:

Это из Википедии как есть

Это из Википедии как есть

Читать полностью »

По работе я постоянно имею дело с серверами; при этом их владельцы всегда хотят знать, когда серверы используют свои ресурсы максимально. Вроде бы, это простая задача? Достаточно настроить top или другой инструмент мониторинга системы, посмотреть на процент использования сети, памяти и CPU, и наибольшее значение покажет, насколько близко сервер находится к пределу своих возможностей.

Читать полностью »

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно. 

Читать полностью »

ChatGPT 5 вышел! Что нового, бенчмарки и как получить доступ из России - 1

В четверг, 7 августа, в 20:00 по мск состоялось долгожданное событие в мире ИИ — OpenAI представила ChatGPT 5. В этой статье я собрал всю важную информацию из прошедшей демонстрацииЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js