- PVSM.RU - https://www.pvsm.ru -
START [1]— опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Современные ризонинг-модели впечатляюще круто решают даже очень сложные задачи. Однако они сталкиваются с двумя ключевыми проблемами: галлюцинациями и неспособностью выполнять точные вычисления.
Пруфы:
У Anthropic недавно вышло нашумевшее исследование [2], которое демонстрирует, что LLM вполне способны «обманывать», имитируя рассуждения и приходя к неверным выводам.
Если попросить LLM решить сложную математическую задачу, она может выдать логически обоснованное, но неверное решение, просто потому что не умеет проверять свои шаги так, как это делает человек с калькулятором, интерпретатором кода или специализированным ПО под рукой.
Особенно трудно моделям даются:
многоэтапные вычисления: интегралы, комбинаторика, оптимизация и все такое прочее;
генерация и отладка кода: без реального исполнения модель не может найти синтаксические ошибки или логические недочеты;
анализ данных: например, проверка статистических гипотез требует точных расчетов, а не предположений.
Идея START родилась на стыке двух направлений:
Длинные цепочки рассуждений (Long CoT). Это тот же ризонинг, где модель декомпозирует задачу и пытается найти недочеты в решении, подражая когнитивным стратегиям человека.
Ризонинг с инструментами (TIR). Это подход, когда LLM сама решает, когда ей нужно обратиться к внешним инструментам, например, исполнить код на Python для вычислений.
START — это LLM, способная при необходимости делегировать работу внешним инструментам. Главный ее прорыв — автогенерация обучающего датасета путем вызова инструментов без готовых примеров, просто через подсказки в процессе размышлений предобученной ризонинг-модели QwQ.
Эти подсказки не случайны. Они вставляются после слов вроде Alternatively или Wait, где модель обычно начинает задумываться. После подсказок сгенерированный Python-код запускается, а результат встраивается в рассуждение.
Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ.
После сбора сгенерированных ответов, которые в результате применения TIR дали лучший результат на существующих задачах, на них производится обучение модели START-0. Это не конечная модель, но она будет использована дальше для завершающего этапа.
Хоть START-0 и научилась вызывать инструменты для решения задач, она все еще может делать это неоптимально. Rejection Sampling Fine-Tuning (RFT) помогает прийти к финальной версии обучающего датасета путем генерации разных вариантов размышлений над одной и той же задачей. После отбора лучших ответов на них обучается модель START.
Отличия START от GPT-4 и Gemini:
Узкая специализация: START заточена под задачи, в которых нужны вычисления или проверка кода, а не диалоги на общие темы.
START является опенсорсным решением, в отличие от GPT-4 или Gemini, поскольку он основан на открытой модели QwQ.
Какие инструменты доступны:
Пока только Python, но архитектура позволяет добавить что угодно: SQL для аналитики, WolframAlpha для символьных вычислений или даже API для работы с базами данных.
Решая задачу «Найди аномалии в продажах» модель могла бы:
Сгенерировать SQL-запрос.
Получить данные.
Проанализировать их через Pandas.
Обучение START напоминает тренировку стажера, которому подсказывают нужный инструментарий для решения задачи, закрепляют лучшие результаты, а потом просят повторить то же самое на других задачах.
Этапы:
Сбор данных: 50 000 задач (математика, код, наука), включая олимпиадные задачи AIME и сложные вопросы GPQA.
Hint-infer: Исходная модель QwQ-32B генерировала решения, а исследователи вставляли подсказки в ключевые моменты. И сохраняли удачные примеры, где код помог решить задачу.
Hint-RFT: Генерировали несколько разных траекторий размышлений, лучшие траектории отбирали, очищали от повторов и дообучали на них модель.
Результаты:
На математике (AMC23) START показала 95% точности против 80% у базовой QwQ.
В научных вопросах (GPQA) — 63.6%, что сопоставимо с топовыми закрытыми моделями.
В генерации кода выигрыш тоже имеется (+5.9%), модель стала лучше находить баги через исполнение кода.
START проявит себя лучше всего в анализе данных, автоматической проверке гипотез через SQL и Python и генерации рабочих блоков кода.
Пример из жизни:
Представьте аналитика, который проверяет, почему вдруг упали продажи в ноябре. Вместо ручных запросов он мог бы спросить START, и та запросто нашла бы ответ:
Сгенерировала бы SQL для выгрузки данных.
Построила графики через matplotlib.
Нашла аномалии через статистику.
Сформировала полный отчет на основе полученных данных без привлечения агентов.
Главное — скорость:
Хотя исполнение кода добавляет задержку, START сокращает число необходимых для решения задачи итераций. Это особенно заметно при сравнении с агентными системами. Например, на некоторой математической задаче START дает ответ за один проход, а обычная LLM может несколько раз ошибиться в арифметике.
Кстати, относительно свежая o3 от OpenAI — это та же START, только коммерческая.
Главная фишка: новые модели натренировали использовать инструменты прямо во время ризонинга. Они могут не только искать в интернете, но и исполнять код и пользоваться другими инструментами. Модели мультимодальные и могут использовать это качество во время размышлений.
По бенчмаркам это полный разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. И это неудивительно: на тренировку модели o3 ушло в 10 раз больше вычислительных ресурсов, чем на o1.
Автор: Safreliy
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/start/421016
Ссылки в тексте:
[1] START : https://arxiv.org/pdf/2503.04625
[2] исследование: https://transformer-circuits.pub/2025/attribution-graphs/methods.html
[3] Источник: https://habr.com/ru/companies/postgrespro/articles/913490/?utm_campaign=913490&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.