На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям

START ^[1]— опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Зачем нужна START

Современные ризонинг-модели впечатляюще круто решают даже очень сложные задачи. Однако они сталкиваются с двумя ключевыми проблемами: галлюцинациями и неспособностью выполнять точные вычисления.

Пруфы:

У Anthropic недавно вышло нашумевшее исследование ^[2], которое демонстрирует, что LLM вполне способны «обманывать», имитируя рассуждения и приходя к неверным выводам.

Если попросить LLM решить сложную математическую задачу, она может выдать логически обоснованное, но неверное решение, просто потому что не умеет проверять свои шаги так, как это делает человек с калькулятором, интерпретатором кода или специализированным ПО под рукой.

Особенно трудно моделям даются:

многоэтапные вычисления: интегралы, комбинаторика, оптимизация и все такое прочее;
генерация и отладка кода: без реального исполнения модель не может найти синтаксические ошибки или логические недочеты;
анализ данных: например, проверка статистических гипотез требует точных расчетов, а не предположений.

Идея START родилась на стыке двух направлений:

Длинные цепочки рассуждений (Long CoT). Это тот же ризонинг, где модель декомпозирует задачу и пытается найти недочеты в решении, подражая когнитивным стратегиям человека.
Ризонинг с инструментами (TIR). Это подход, когда LLM сама решает, когда ей нужно обратиться к внешним инструментам, например, исполнить код на Python для вычислений.

Как устроена START

START — это LLM, способная при необходимости делегировать работу внешним инструментам. Главный ее прорыв — автогенерация обучающего датасета путем вызова инструментов без готовых примеров, просто через подсказки в процессе размышлений предобученной ризонинг-модели QwQ.

Эти подсказки не случайны. Они вставляются после слов вроде Alternatively или Wait, где модель обычно начинает задумываться. После подсказок сгенерированный Python-код запускается, а результат встраивается в рассуждение.

Например, для задачи «Найди сумму цифр числа 29!» модель сначала вычисляет факториал кодом, а потом анализирует ответ.

После сбора сгенерированных ответов, которые в результате применения TIR дали лучший результат на существующих задачах, на них производится обучение модели START-0. Это не конечная модель, но она будет использована дальше для завершающего этапа.

Хоть START-0 и научилась вызывать инструменты для решения задач, она все еще может делать это неоптимально. Rejection Sampling Fine-Tuning (RFT) помогает прийти к финальной версии обучающего датасета путем генерации разных вариантов размышлений над одной и той же задачей. После отбора лучших ответов на них обучается модель START.

Отличия START от GPT-4 и Gemini:

Узкая специализация: START заточена под задачи, в которых нужны вычисления или проверка кода, а не диалоги на общие темы.
START является опенсорсным решением, в отличие от GPT-4 или Gemini, поскольку он основан на открытой модели QwQ.

Какие инструменты доступны:

Пока только Python, но архитектура позволяет добавить что угодно: SQL для аналитики, WolframAlpha для символьных вычислений или даже API для работы с базами данных.

Решая задачу «Найди аномалии в продажах» модель могла бы:

Сгенерировать SQL-запрос.
Получить данные.
Проанализировать их через Pandas.

Как START научили думать, используя инструменты

Обучение START напоминает тренировку стажера, которому подсказывают нужный инструментарий для решения задачи, закрепляют лучшие результаты, а потом просят повторить то же самое на других задачах.

Этапы:

Сбор данных: 50 000 задач (математика, код, наука), включая олимпиадные задачи AIME и сложные вопросы GPQA.
Hint-infer: Исходная модель QwQ-32B генерировала решения, а исследователи вставляли подсказки в ключевые моменты. И сохраняли удачные примеры, где код помог решить задачу.
Hint-RFT: Генерировали несколько разных траекторий размышлений, лучшие траектории отбирали, очищали от повторов и дообучали на них модель.

Результаты:

На математике (AMC23) START показала 95% точности против 80% у базовой QwQ.
В научных вопросах (GPQA) — 63.6%, что сопоставимо с топовыми закрытыми моделями.
В генерации кода выигрыш тоже имеется (+5.9%), модель стала лучше находить баги через исполнение кода.

Где START реально полезна

START проявит себя лучше всего в анализе данных, автоматической проверке гипотез через SQL и Python и генерации рабочих блоков кода.

Пример из жизни:

Представьте аналитика, который проверяет, почему вдруг упали продажи в ноябре. Вместо ручных запросов он мог бы спросить START, и та запросто нашла бы ответ:

Сгенерировала бы SQL для выгрузки данных.
Построила графики через matplotlib.
Нашла аномалии через статистику.
Сформировала полный отчет на основе полученных данных без привлечения агентов.

Главное — скорость:

Хотя исполнение кода добавляет задержку, START сокращает число необходимых для решения задачи итераций. Это особенно заметно при сравнении с агентными системами. Например, на некоторой математической задаче START дает ответ за один проход, а обычная LLM может несколько раз ошибиться в арифметике.

Постскриптум: если хотите, можно то же самое, но за деньги

Кстати, относительно свежая o3 от OpenAI — это та же START, только коммерческая.

Главная фишка: новые модели натренировали использовать инструменты прямо во время ризонинга. Они могут не только искать в интернете, но и исполнять код и пользоваться другими инструментами. Модели мультимодальные и могут использовать это качество во время размышлений.

По бенчмаркам это полный разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. И это неудивительно: на тренировку модели o3 ушло в 10 раз больше вычислительных ресурсов, чем на o1.

Автор: Safreliy

Источник ^[3]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/start/421016

Ссылки в тексте:

[1] START : https://arxiv.org/pdf/2503.04625

[2] исследование: https://transformer-circuits.pub/2025/attribution-graphs/methods.html

[3] Источник: https://habr.com/ru/companies/postgrespro/articles/913490/?utm_campaign=913490&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.