Главная

Рубрика «SWE»

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данных

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «SWE»

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench