- PVSM.RU - https://www.pvsm.ru -
Google выпустила новую модель искусственного интеллекта Gemini 2.5 Computer Use. Эта модель позволяет ИИ-агентам взаимодействовать с веб-сайтами и пользовательскими интерфейсами так же, как это делает человек, по утверждению Google. Она уже доступна в публичном ознакомительном режиме через API Gemini в Google AI Studio и Vertex AI.
Модель основана на возможностях визуального восприятия и рассуждения Gemini 2.5 Pro. Она может выполнять широкий спектр действий в браузере, таких как нажатие клавиш, ввод текста, прокрутка, наведение курсора, открытие раскрывающихся списков и навигация по URL-адресам. Google заявляет, что модель превосходит конкурирующие инструменты в нескольких бенчмарках, включая Online-Mind2Web, WebVoyager и AndroidWorld, сохраняя при этом меньшую задержку.
В отличие от традиционных моделей ИИ, использующих API, Gemini 2.5 Computer Use обрабатывает скриншоты веб-интерфейсов и генерирует в ответ конкретные действия. Агент получает запрос на выполнение задачи, скриншот и историю недавних действий. Затем он анализирует интерфейс и выдает действие, например, нажатие кнопки или ввод данных в поле. Действие выполняется на стороне клиента, а новый скриншот отправляется обратно модели для продолжения выполнения задачи в цикле.
Google продемонстрировала эффективность модели на примерах, где агент сортирует стикеры на цифровой доске и переносит информацию о домашних животных с одного сайта в CRM-систему.
В настоящее время модель поддерживает 13 действий и лучше всего работает в веб-браузерах. Google заявила, что модель пока не оптимизирована для задач на уровне настольных ОС, хотя и продемонстрировала потенциал в мобильных бенчмарках.
Источник [2]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/news/433020
Ссылки в тексте:
[1] Image: #
[2] Источник: https://www.ixbt.com/news/2025/10/09/google-gemini-2-5-computer-use.html
Нажмите здесь для печати.