- PVSM.RU - https://www.pvsm.ru -

Обычно нейросети нужно тренировать на мощном железе, сконцентрированном в одном датацентре. Результат такой тренировки попадает в руки той бигтех-корпорации, которой по карману иметь свои датацентры и самостоятельно тренировать модели за бешеные миллионы баксов. Есть ли другой путь?
Встречайте INTELLECT-2 — первую параметрическую модель размером 32B, обученную с помощью асинхронного обучения с подкреплением (RL) на динамическом, однородном рое вычислительных узлов. Доступ к узлам изолирован и не требует дополнительных привилегий — теоретически, это могут быть какие-то компьютеры волонтёров в интернете.
Инфра под это, мягко говоря, нестандартная. Разработчикам пришлось написать несколько компонентов с нуля, и вот что у них получилось...
Статья написана на основе более подробного технического отчета: primeintellect.ai/intellect-2 [1]
Посмотреть работу модели в онлайн-чате можно здесь: chat.primeintellect.ai [2]
Модель лежит на Hugging Face [3]
Описанный в статье фреймворк Prime-RL лежит на GitHub [4]
В ходе разработки INTELLECT-2, появилось несколько опенсорсных компонентов. Все вместе они называются PRIME-RL [4] — новый фреймворк, созданный для распределенного асинхронного обучения с подкреплением. Состоит из нескольких частей: TOPLOC верифицирует роллауты от недоверенных инференс-воркеров, а SHARDCAST эффективно транслирует контрольные веса от тренировочных нод к инференс-вокерам.
Помимо инфраструктурных компонентов, разработчики улучшили стандартный протокол тренировки GRPO и способы фильтрации данных. Всё это критически важно для стабилизации обучения и гарантий, что модель успешно усвоила тренировочную цель и улучшила свою базу — QwQ-32B.
Исходный код INTELLECT-2, инфраструктурный код и данные выкладывается в открытый доступ. Команда верит, что будущее — за открытыми исследованиями в области децентрализованного обучения и приглашает всех к сотрудничеству.
Больше заметок о нейросетях в телеграме @1red2black [5]

В последнее время, все говорят о test-time compute scaling. Это одна из самых популярных идей для масштабирования LLM. Улучшения достигаются тем, что модель может больше времени провести в ризонинге.
По классике, тренировка с подкреплением жестко централизована. Тебе нужен мощный датацентр с колоцированными GPU и быстрым соединением между серверами в кластере. INTELLECT-2 меняет парадигму: разработчики эксплуатируют тот факт, что обучение с подкреплением по своей природе асинхронно и хорошо подходит для децентрализованных, глобально распределенных вычислений.
Давайте детально посмотрим на все компоненты, тем более что они лежат в опенсорсе, и вы сами можете их использовать.
PRIME-RL: [4]
- Полностью асинхронный фреймворк обучения с подкреплением, разработанный для децентрализованного обучения
- Определяет процедуру генерации роллаутов, тренировку модели и рассылку весов
- Позволяет проводить обучение на гетерогенных, ненадежных сетях
- Реализация трейнера использует PyTorch FSDP2 [6], инференс использует vLLM [7], а верификаторы используют схему GENESYS [8], представленную в SYNTHETIC-1 [9]
SHARDCAST: Библиотека для распространения больших файлов по HTTP, с древовидной топологией сети, которая эффективно передает обновленные веса модели всем децентрализованным инференс-воркерам

TOPLOC:
- Схема хеширования с учетом локальности данных, которая позволяет делать эффективный и верифицируемый инференс
- Обнаруживает подмену данных или изменение точности в инференсе модели и надежно работает на неизвестном GPU-железе
- Инференс-воркеры генерируют роллауты. Эти файлы загружаются через подписанные URL, события в чейне запускают валидаторы TOPLOC для их проверки; успешно проверенные файлы поступают в трейнер, а при обнаруждении попытки обмана — соответствующий узел выбрасывается из пула вычислителей

Protocol Testnet: [10]
- Предоставляет инфраструктуру для агрегации и координации глобальных вычислительных ресурсов
- Оркестратор на Rust и сервис обнаружения координируют воркеры, которым не нужно дополнительных доступов — ноды автоматически регистрируются, оборудование проверяется, ноды начинают отправлять хартбиты и запрашивают задачи в Docker-контейнерах. В это же время, оркестратор распределяет рабочие нагрузки, отслеживает "здоровье" системы, управляет доступами до пула и фиксирует вклад каждого участника.

Тренировочные данные и подкрепление:
- 285k верифицируемых задач (математика и кодинг) из NuminaMath-1.5, Deepscaler и SYNTHETIC-1 [9]
- Бинарное подкрепление за задачу + награда за длину позволяет пользователям распределять thinking tokens во время инференса
- Двухэтапный асинхронный RL: рассылка новых проверочных весов полностью сочетается с идущим параллельно инференсом и обучением — так устраняется бутылочное горлышко в общении компонентов.

Двустороннее клиппирование GRPO: Стабилизирует обучение, смягчает пики градиентов с помощью двустороннего клиппирования отношения вероятностей

Продвинутая фильтрация данных: Комбинирует офлайн и онлайн-фильтрацию, что позволяет выбирать достаточной сложности задачи, и значительно повышает эффективность обучения модели

Агрессивное клиппирование градиентов: Решает проблему расширения норм градиентов при масштабировании, что положительно сказывается на стабильности обучения
Исследование проводилась на двух основных экспериментах:
- TARGET-SHORT: экспериментальный запуск на материале с небольшими длинами (для получения эффетивного ризонинга)
- TARGET-LONG: основной прогон теста, с большими длинами
Утилизация вычислительных ресурсов: В ходе экспериментов, удалось совместить коммуникацию с вычислениями, используя двухэтапное асинхронное обучение с подкреплением.
Подкрепление:
- На протяжении обучения видно значительное увеличение награды, что указывает на повышение производительности модели в решении математических задач и задач по кодингу
- Зафиксировано снижение штрафов за длину. Впрочем, значительно медленнее, чем во время других абляционных экспериментов
Производительность на бенчмарках: Удалось статистически значимо повысить производительность QwQ-32B на математических бенчмарках и бенчмарках по кодингу.

В целом, поскольку QwQ-32B уже интенсивно обучена с помощью RL, сложно получить какие-то существенные улучшения на бенчмарках, кроме как улучшить результат на тренировочном датасете. Чтобы получить более значительные результаты, вероятно, нужно взять более сильную базовую модель (Qwen3?), более качественные датасеты, или как-то улучшить саму RL-среду.
INTELLECT-2 — первый шаг к продвинутым, действительно открытым и децентрализованно обученным рассуждающим моделям. В ближайшие месяцы у команды разработчиков в планах:
Увеличение соотношения инференса к тренировочным вычислениям
- Инференс идеально параллелится и не требует коммуникации. Сложная и мощная (в смысле количества флопсов на инференс) RL-среда естественным образом подходят для децентрализованного обучения
Tool Calls & Multi-Turn RL
Для полномасштабного inference-time compute в научных и исследовательских целях нужно дать моделям встроенные инструменты для ризонинга — веб-поиск, интерпретаторы Python и т.д.
Краудсорсинг RL-задач и сред
Опенсорс имеет уникальное преимущество. Распределенный RL все еще очень новая штука, многое всё ещё предстоит разработать. Но с правильным комьюнити и возможностью сообщества совместно достигать большие цели, опенсорсный ИИ всё ещё может обогнать закрытые лаборатории
Мерджинг моделей и DiLoCo
Объединение независимо обученных RL-моделей — либо в конце цепочки, либо непрерывно через DiLoCo [11]— для создания единой унифицированной модели. Нужно масштабировать децентрализованный RL на гораздо больший объем вычислений
Все подробности есть в техническом отчете [12].
Команда INTELLECT-2 работает над децентрализованным RL. Текущий фокус разработки направлен на ризонинг, инструменты, краудсорсинг высококачественных данных, оптимизацию инфраструктуры и протокола обучения.
Проект открыт для сотрудничества со всеми, кто заинтересован в совместном создании опенсорсного и децентрализованного AGI.
Автор: olegchir
Источник [13]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/ai/419682
Ссылки в тексте:
[1] primeintellect.ai/intellect-2: http://primeintellect.ai/intellect-2
[2] chat.primeintellect.ai: http://chat.primeintellect.ai
[3] Hugging Face: https://huggingface.co/collections/PrimeIntellect/intellect-2-68205b03343a82eabc802dc2
[4] лежит на GitHub: https://github.com/PrimeIntellect-ai/prime-rl
[5] @1red2black: https://t.me/tg_1red2black
[6] FSDP2: https://docs.pytorch.org/docs/stable/distributed.fsdp.fully_shard.html
[7] vLLM: https://github.com/vllm-project/vllm
[8] GENESYS: https://github.com/PrimeIntellect-ai/genesys
[9] SYNTHETIC-1: https://www.primeintellect.ai/blog/synthetic-1-release
[10] Protocol Testnet:: https://github.com/PrimeIntellect-ai/pi-protocol
[11] DiLoCo : https://github.com/PrimeIntellect-ai/OpenDiloco
[12] в техническом отчете: https://primeintellect.ai/intellect-2
[13] Источник: https://habr.com/ru/companies/bar/articles/909432/?utm_campaign=909432&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.