Всем привет! Это моя первая статья на Хабре, так что буду рад любым комментариям. Я бы хотел затронуть одну из самых сложных и больных тем в IT и электронике, из-за которой создают сотни бенчмарков и тестов, но вопрос всё равно остается открытым: как сравнить 2 процессора? Какую архитектуру выбрать в конкретной задаче, когда у тебя ограниченный бюджет и условия?
Рубрика «бенчмарки»
Core i9 vs Apple M2: как честно сравнивать калькуляторы с суперкомпьютерами
2026-01-07 в 23:02, admin, рубрики: архитектура процессоров, бенчмарки, выбор процессора, маркетинг, процессоры amd, процессоры intelБольшим GPU не нужны большие PC
2026-01-05 в 13:01, admin, рубрики: amd, llm, Nvidia, radeon, ruvds_переводы, бенчмарки, локальные нейросетиARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
2025-12-12 в 17:29, admin, рубрики: arc-agi, OpenAI, бенчмарки, бенчмаркинг, генеративный ии, искусственный интеллект, машинное обучение, Новости, тестирование моделейВчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.
Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.
На сегодня существует две версии этого теста. Так о чем же он?
ARC-AGI-1
История начинается в 2019 году со статьиЧитать полностью »
Оценка влияния ИИ на производительность опытных разработчиков открытого ПО
2025-10-28 в 12:38, admin, рубрики: claude, cursor, RCT, автоматизация НИОКР, бенчмарки, генерация кода, ии-инструменты, оценка эффективности, производительностьTL;DR
-
Провели РКИ на реальных задачах в крупных OSS-репозиториях: 16 опытных контрибьюторов, 246 задач (исправления, фичи, рефакторинг), на каждую задачу случайно разрешали/запрещали ИИ.
-
Инструменты при «разрешено»: в основном Cursor Pro + Claude 3.5/3.7; при «запрещено» — обычная работа без генеративного ИИ.
-
Главный итог: с ИИ задачи выполнялись в среднем на 19% дольше; качество PR сопоставимо между условиями.
-
Перцепция расходится с данными: разработчики ожидали ускорение (~24%) и постфактум тоже считали, что ускорились (~20%).
Часть 5. Обзор техник оценки качества систем RAG
2025-09-19 в 20:43, admin, рубрики: nlp, nlp обработка текста, rag, rag pipeline, база знаний, бенчмарки, искусственный интеллект, метрикиПредисловие переводчика
Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.
SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода
2025-09-18 в 11:00, admin, рубрики: llm, llm-агент, llm-модели, агентное программирование, бенчмарки
Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустилЧитать полностью »
Не смотрите на % использования процессора при гиперпоточности
2025-09-08 в 16:22, admin, рубрики: cpu usage, hyperthreading, бенчмарки, многопоточность, ядраКогда речь заходит о гиперпоточности, то как правило всё начинается с того, что нам показывают красивые картинки с квадратиками типа такой:
Проценты использования процессора — это ложная метрика
2025-09-05 в 9:08, admin, рубрики: cpu usage, hyperthreading, бенчмарки, многопоточность, ядраПо работе я постоянно имею дело с серверами; при этом их владельцы всегда хотят знать, когда серверы используют свои ресурсы максимально. Вроде бы, это простая задача? Достаточно настроить top или другой инструмент мониторинга системы, посмотреть на процент использования сети, памяти и CPU, и наибольшее значение покажет, насколько близко сервер находится к пределу своих возможностей.
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
2025-08-19 в 6:13, admin, рубрики: asr, llm, speech recognition, бенчмарки, звонки, распознавание речи, распознавание русской речи, телефония, языковые моделиПривет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
ChatGPT 5 вышел! Что нового, бенчмарки и как получить доступ из России
2025-08-08 в 12:58, admin, рубрики: AGI, chatgpt 5, OpenAI, бенчмарки, вайбкодинг, Сэм Альтман
В четверг, 7 августа, в 20:00 по мск состоялось долгожданное событие в мире ИИ — OpenAI представила ChatGPT 5. В этой статье я собрал всю важную информацию из прошедшей демонстрацииЧитать полностью »

