В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM-моделей решать типовые задачи программирования на 1С.
Рубрика «benchmark»
1C Code Bench – бенчмарк для оценки способности LLM писать код на 1С
2025-12-29 в 13:15, admin, рубрики: 1c, benchmarkНачалось всё с того, что я смотрел ролик про оптимизацию и увидел знакомый по книжкам пример кода, который демонстрирует важность успеха предсказателя ветвлений (branch predictor). Суть в том, что в функции есть ветвление и если предсказатель предскажет неверно, то будет потрачено множество тактов процессора впустую. Оптимизированная версия функции всегда рассчитывает два результата, но не имеет ветвлений.
Так вот, делать было нечего и я решил проверить как это работает на самом деле.
Для этого я взял google benchmark и составил два одинаковых теста на каждую из функций.
BM_GetProduct1 - функция с ветвлением, BM_GetProduct2Читать полностью »
GDPval: измерение производительности AI-моделей на реальных задачах
2025-11-03 в 11:00, admin, рубрики: AI, benchmark, chatgpt, genai, gpt, llm, open AI, OpenAIМы представляем GDPval — новую метрику, которая оценивает производительность моделей на экономически значимых, прикладных задачах из 44 профессиональных областей.
Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPvalЧитать полностью »
Неожиданный результат: ИИ замедляет опытных разработчиков
2025-08-25 в 11:00, admin, рубрики: AI, ai agent, ai tools, benchmark, developer, development, ИИ, ии помощникМы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.
Time Horizon моделей AI: почему рост скорости зависит от сферы применения
2025-08-21 в 11:00, admin, рубрики: AI, benchmarkСуров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права
2025-06-28 в 10:41, admin, рубрики: benchmark, reasoning, налоговое правоЭтот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR
Эффективный инференс множества LoRA адаптеров
2025-06-27 в 8:19, admin, рубрики: async inference, benchmark, inference, lora, multilora, offline inference, PEFT, tensorrt, TensorRT-LLM, vllmLoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.
MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.
В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLMЧитать полностью »
Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench
2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данныхВ статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статьеЧитать полностью »
Решение задачи классификации при помощи Deep Learning и классического Machine Learning
2024-12-30 в 22:15, admin, рубрики: benchmark, scikit-learn, TensorFlowНебольшой бенчмарк (вроде этого): генерируем данные, потом тренируем на них нейросеть (DL - deep learning) и статистические модели (ML - machine learning). Оценивать результат будем по точности (Confusion Matrix) и контурному графику Decision Boundary, а также по времени тренировки. Мы классифицируем синтетические данные тремя способами (на разном количестве данных, от 1000 до 100 000 примеров):
-
DL модель с одним слоем из 8 нейронов
-
Support Vector Classifier
-
Decision Tree Classifier
BABILong — бенчмарк для оценки LLM на больших контекстах
2024-12-16 в 7:24, admin, рубрики: benchmark, llm, бенчмарки, длинный контекстПривет! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.
Разработчики современных языковых моделей соревнуются в длине контекста, и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?
Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который привезлиЧитать полностью »
