- PVSM.RU - https://www.pvsm.ru -

Взять и собрать ИИ-агента: редактор сценариев, мультимодальная основа и другие открытые инструменты

Агенты — одна из горячих тем этого лета: интерес к ним существенно вырос, как и потребность в инструментах, упрощающих разработку таких систем. И мы в Beeline Cloud [1] собрали несколько open source-проектов по теме под лицензией Apache 2.0.

Изображение — Dave Jia

Изображение — Dave Jia

Инструмент для изоляции

Первый проект в подборке — container-use [2]. Он представляет собой инструмент для управления изолированными контейнерными средами для ИИ-агентов. Проектом занимается компания Dagger — она известна решениями для контейнеризации, включая открытую одноименную платформу [3] для автоматизации рабочих процессов.

Если говорить о возможностях, то container-use позволяет выстроить работу ИИ-агентов особым образом, чтобы каждый из них был «привязан» к своей git-ветке. Такой подход исключает вероятность конфликтов. В основе инструмента лежит протокол MCP [4] — открытый стандарт от специалистов из Anthropic, который помогает интеллектуальным системам обмениваться данными с внешними инструментами. Один из разработчиков container-use пояснил [5], почему такой протокол важен: он повышает устойчивость системы, снижает вероятность галлюцинаций и помогает «удерживать агентов в заданных рамках».

В качестве дополнительной функциональности container-use предлагает безопасную работу с секретами: API-ключами, токенами и паролями. Секреты не передаются [6] в модель, не отображаются в логах, коде или в контексте диалога. Еще одна важная особенность инструмента — наличие системы конфигураций окружения. Для всех агентов можно задать базовую среду со стандартными утилитами и переменными (конфигурацию по умолчанию), из которой будут «стартовать [7]» все новые процессы. Если в ходе работы ИИ-агент понимает, что ему не хватает какого-либо инструмента, он может модифицировать конфигурацию. При этом изменения не затрагивают другие среды. Такой подход позволяет разработчикам проанализировать, какие настройки оказались полезны, и по необходимости сделать их частью базовой конфигурации. Так достигается баланс между предсказуемостью и гибкостью среды, с которой может работать агент.

К недостаткам container-use можно отнести компактную документацию с небольшим количеством примеров. Хотя в ней есть инструкции по установке [8] и быстрому старту [9]. В любом случае проект пока находится на ранних этапах разработки — ведь первый релиз состоялся в июне этого года — и можно предположить, что он будет развиваться при участии комьюнити.

Фреймворк от создателя Spring

Embabel [10] — это фреймворк для построения агентских цепочек на JVM [11]. Автор проекта — Род Джонсон [12], создатель универсального фреймворка Spring [13] для Java-платформы, ставшего ключевым инструментом корпоративной разработки. Что касается Embabel, то он появился из необходимости интегрировать системы ИИ в Java-экосистему. Таким образом, фреймворк рассчитан на разработчиков, которые хотят внедрить LLM-функциональность в приложения, не выходя за привычный стек.

В основе фреймворка лежит концепция [14] Goal-Oriented Action Planning (GOAP). Так, она используется в игровой индустрии для управления поведением агентов (например, NPC в играх) через динамическое планирование последовательности действий для достижения цели, формируя так называемую «петлю Бойда [15]». Этот подход позволяет выполнять задачи, для которых нет прописанных инструкций.

Embabel поддерживает работу с локальными и облачными моделями, что облегчает настройку под разные задачи. Однако документация может показаться запутанной, поскольку большая часть релевантной информации собрана в README-файлах нескольких репозиториев. При этом там можно найти инструкции по запуску [16], примеры, а также шаблоны для Java [17] и Kotlin [18].

Агентная архитектура

Еще один фреймворк — Agent Development Kit [19] (ADK) от Google для разработки, тестирования и запуска ИИ-агентов. ADK оптимизирован для работы с Gemini и экосистемой корпорации, но он все же совместим с другими решениями и платформами. Доступны два отдельных SDK: для Python [20] и для Java [21].

Фреймворк появился в силу интереса к мультиагентным системам (когда один агент отвечает за обработку запросов, другой — за поиск ответов, третий — за выполнение задач) и желания упростить их разработку. Среди возможностей [20] ADK — последовательная и параллельная оркестрация задач, интеграция с LangChain и CrewAI. Важную роль в архитектуре инструмента играют специальные модули [22] (tools), позволяющие ИИ-агентам обращаться к внешним системам. Они бывают разных типов [23]: встроенные (например, поиск в Google или RAG), кастомные, написанные под конкретную задачу, и third-party — из библиотек вроде LangChain или CrewAI.

Изображение — Venkatesan P

Изображение — Venkatesan P

Логика работы ADK построена на событиях [24] (events) — сообщениях, фиксирующих каждый шаг агента: от вызова инструмента или до оповещений об ошибках. Благодаря событиям компоненты обмениваются данными, управляют порядком действий. Поскольку вся история взаимодействия сохраняется, легко проследить, как именно агент пришел к своему ответу — а это полезно при отладке.

Документация [25] проекта подробная: в ней есть инструкции по настройке [26] окружения и установке ADK, описан этап создания [27] проекта (включая описание его структуры). Отдельный раздел посвящен настройке [28] модели, где объясняется, как ее подключить аутентификацию. Также есть примеры тестовых запросов.

Редактор ИИ-сценариев

Sim [29] — визуальный конструктор для ИИ-приложений, первая версия которого была представлена на GitHub в апреле 2025 года. Авторы — команда [30] из Sim Studio, открытого сообщества, развивающего инструментарий для построения ИИ-агентов. Работа с процессами ведется с помощью графического редактора путем соединения специализированных модулей [31], выполняющих свои задачи. Например, блок Agent для инференса или Condition для ветвления сценариев по условиям.

Среди других возможностей конструктора — интеграция с более чем 60 сервисами: например, Gmail, Slack, Notion и Pinecone. Есть и поддержка локальных LLM.

Документация [32] подробная: в ней авторы рассказывают о платформе [32], как создавать блоки [31] и собирать рабочие процессы [33], настраивать связи [34]. В ней также можно найти [35] пример, как за 10 минут собрать первый рабочий процесс — агент для поиска информации о людях (например, соискателей). Пошагово расписан алгоритм настройки с подключением внешних сервисов и тестами.

Мультимодальная основа

Magma [36] — мультимодальная модель от Microsoft. Она предназначена для обработки визуальных и текстовых данных, а также выполнения действий в физическом и цифровом пространствах. Данные для обучения модели размечены [37] с использованием подходов Set-of-Mark и Trace-of-Mark. Модель обучали на видеоданных и задачах робототехники. Поэтому её используют для управления манипулятором как в симуляциях, так и в реальной жизни — например, чтобы перенести предмет с места на место. Однако после дообучения Magma может быть применима в разных задачах. Она умеет генерировать описания к изображениям и видеороликам, отвечать на вопросы по визуальной информации — то есть применима для анализа изображений, поиска объектов на видео. Еще одна важная функция — навигация по интерфейсу: Magma может понять, где находится нужная кнопка, и «нажать» на нее, как это сделал бы пользователь.

В репозитории можно найти обучающие ролики [38], инструкции по установке [39] инструмента, предобработке [40] данных, а также обучению [41] модели. И на Hacker News проект и идею [42] мультимодального агента, способного не только воспринимать визуальную информацию, но и выполнять действия, встретили положительно.

Однако некоторые посчитали модель довольно «сырой», ведь она медленнее промышленных систем. Здесь важно отметить, что на данный момент Magma не предназначена для коммерческого применения. В первую очередь, это исследовательский проект, направленный на развитие мультимодальных систем ИИ. Он создавался с целью ускорить прогресс в разработке интеллектуальных агентов нового поколения. Но в целом сообщество ждет улучшений Magma и надеется, что развитие проекта продолжится.


Beeline Cloud [1] — secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще у нас есть по теме:

  • Как собрать ИИ-агента — открытые руководства для чтения [43]. Мы нашли несколько материалов для тех, кто хочет понять, как устроены современные ИИ-агенты, и, возможно, создать своего. Среди них — разбор от компании Anthropic, где эксперты анализируют популярные архитектуры агентных систем: «цепочки промптов», «параллельное выполнение», «оркестратор с воркерами» и другие. Также в подборке представлено руководство Twelve-Factor Agents [44], основанное на принципах Twelve-Factor App для веб-разработки и SaaS, — его подготовил разработчик независимого open source проекта.

  • Как нейросетям перестать бояться и полюбить «синтетику» [45]. Разбираемся, какие риски скрывают синтетические датасеты. С одной стороны, они помогают генерировать данные, которые сложно собрать в реальных условиях. С другой — исследователи предупреждают, что «синтетика» может содержать шумы и в перспективе приводить к схлопыванию моделей — когда система ИИ начинает серьезно галлюцинировать и буквально «терять связь с реальностью».

  • Интернет против капчи: есть ли будущее у тестов вроде «найдите все картинки с велосипедами»? [46] В профессиональном сообществе всё чаще говорят о том, что капчи с поиском мотоциклов и светофоров больше неэффективны. Исследователи из различных университетов подтверждают это, создавая ботов, которые обходят такую защиту без особого труда. В статье рассматриваем несколько новых способов  идентифицировать людей: от физических проверок до решений на базе блокчейна. А также обсуждаем, как быть, если в ближайшем будущем основными «пользователями» сайтов и сервисов станут ИИ-агенты.

Автор: beeline_cloud

Источник [47]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/sim/428314

Ссылки в тексте:

[1] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=vzyat_i_sobrat_AI_agenta_otkritiye_instrumenti

[2] container-use: https://github.com/dagger/container-use?tab=readme-ov-file

[3] одноименную платформу: https://github.com/dagger/dagger

[4] MCP: https://en.wikipedia.org/wiki/Model_Context_Protocol

[5] пояснил: https://news.ycombinator.com/item?id=44197186

[6] не передаются: https://container-use.com/secrets%252523overview

[7] стартовать: https://container-use.com/environment-configuration%252523overview

[8] установке: https://container-use.com/installation

[9] быстрому старту: https://container-use.com/quickstart

[10] Embabel: https://github.com/embabel

[11] JVM: https://ru.wikipedia.org/wiki/Java_Virtual_Machine

[12] Род Джонсон: https://en.m.wikipedia.org/wiki/Rod_Johnson_(programmer)

[13] Spring: https://ru.wikipedia.org/wiki/Spring_Framework

[14] лежит концепция: https://www.infoq.com/news/2025/06/introducing-embabel-ai-agent/

[15] петлю Бойда: https://en.wikipedia.org/wiki/OODA_loop

[16] запуску: https://github.com/embabel%2523getting-started

[17] Java: https://github.com/embabel/java-agent-template

[18] Kotlin: https://github.com/embabel/kotlin-agent-template

[19] Agent Development Kit: https://google.github.io/adk-docs/

[20] Python: https://github.com/google/adk-python

[21] Java: https://github.com/google/adk-java

[22] модули: https://google.github.io/adk-docs/tools/%252523example-a-simple-math-toolset

[23] типов: https://google.github.io/adk-docs/tools/%252523tool-types-in-adk

[24] событиях: https://google.github.io/adk-docs/events/%2523best-practices-for-working-with-events

[25] Документация: https://google.github.io/adk-docs/get-started/quickstart/

[26] настройке: https://google.github.io/adk-docs/get-started/quickstart/%252523venv-install

[27] создания: https://google.github.io/adk-docs/get-started/quickstart/%252523create-agent-project

[28] настройке: https://google.github.io/adk-docs/get-started/quickstart/%252523set-up-the-model

[29] Sim: https://github.com/simstudioai/sim

[30] команда: https://github.com/simstudioai/sim/graphs/contributors

[31] соединения специализированных модулей: https://docs.simstudio.ai/blocks

[32] Документация: https://docs.simstudio.ai/introduction

[33] процессы: https://docs.simstudio.ai/blocks/workflow

[34] связи: https://docs.simstudio.ai/connections

[35] найти: https://docs.simstudio.ai/getting-started

[36] Magma: https://github.com/microsoft/Magma

[37] размечены: https://microsoft.github.io/Magma/

[38] ролики: https://huggingface.co/datasets/MagmaAI/Magma-Video-ToM

[39] установке: https://github.com/microsoft/Magma?tab=readme-ov-file%252523inference

[40] предобработке: https://github.com/microsoft/Magma?tab=readme-ov-file%252523som-and-tom-generation

[41] обучению: https://github.com/microsoft/Magma?tab=readme-ov-file%252523model-training

[42] идею: https://news.ycombinator.com/item?id=43110265

[43] Как собрать ИИ-агента — открытые руководства для чтения: https://habr.com/ru/companies/beeline_cloud/articles/932704/

[44] Twelve-Factor Agents: https://github.com/humanlayer/12-factor-agents

[45] Как нейросетям перестать бояться и полюбить «синтетику»: https://habr.com/ru/companies/beeline_cloud/articles/923126/

[46] Интернет против капчи: есть ли будущее у тестов вроде «найдите все картинки с велосипедами»?: https://habr.com/ru/companies/beeline_cloud/articles/930772/

[47] Источник: https://habr.com/ru/companies/beeline_cloud/articles/937834/?utm_campaign=937834&utm_source=habrahabr&utm_medium=rss