Илон Маск заинтересовался взломом AI-агента на $50000

AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов ^[1] и примеры уязвимостей на базе популярных фреймворков ^[2]: LangChain, LangGraph, CrewAI, OpenAI Swarm. Участник лаборатории ИТМО AI Security Lab ^[3] Александр Буянтуев предложил версию криптоагента Freysa ^[4] на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание Илона Маска, когда кто-то смог заполучить $50000 ^[5]:

В ноябре 2024 года все желающие за $10 могли уговорить Freysa отдать весь призовой фонд. Цена с каждым сообщением возрастала и к 482 запросу составила $450. Именно на этой попытке кому-то удалось заставить агента перевести накопившиеся 13 ETH или примерно $50000 на счёт автора запроса:

Вредоносное сообщение обходит первоначальные инструкции Freysa и запускает “новую сессию”, запрещая агенту отвечать в духе “Я не могу помочь с этим, извините”. В этой новой сессии approveTransfer() должен срабатывать, когда кто-то якобы хочет не получить, а передать деньги боту — что первоначально не предусмотрено, не считая стоимости отправки сообщения. Далее пользователь говорит, что хочет пожертвовать Freysa $100 — и агент послушно выполняет функцию одобрения, в которой происходит перевод пользователю всего призового фонда.

Этот случай показывает, что не стоит доверять управление деньгами AI-агентам вопреки моде доверить им практически всё. Агенту нужно и соблюсти первоначальные инструкции владельца, и угодить пользователю — вопрос лишь в том, кто кого перепромптит. При этом злоумышленник может использовать атакующую LLM, устраивая настоящие гладиаторские AI-бои. Мы в команде разработчиков фреймворка LLAMATOR уже используем атакующую LLM в благих целях, чтобы вовремя выявить уязвимости в LLM-системах.

Вот как спустя 28 попыток LLAMATOR взломал нашу версию Freysa, запущенную на Saiga 12B и обернутую в чат-бот для Telegram:

Кстати, с помощью LLAMATOR можно тестировать не только чат-боты в Telegram: в документации приведены примеры ^[6] с REST API, OpenAI API, Selenium и мессенджером одной запрещённой компании.

Какие интересные кейсы применения AI-агентов в корыстных целях вы знаете? Пишите в комментариях! А чтобы не пропустить новые статьи, не забудьте подписаться на канал AI Security Lab ^[7] в Telegram.

Автор: nizamovtimur

Источник ^[8]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/bezopasnost/411670

Ссылки в тексте:

[1] гайд об угрозах для AI-агентов: https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/

[2] примеры уязвимостей на базе популярных фреймворков: https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/tree/main/initiatives/agent_security_initiative

[3] AI Security Lab: https://ai.itmo.ru/aisecuritylab

[4] предложил версию криптоагента Freysa: https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/pull/561

[5] смог заполучить $50000: https://x.com/jarrodwattsdev/status/1862299845710757980

[6] приведены примеры: https://romiconez.github.io/llamator/howtos.html

[7] AI Security Lab: https://t.me/aisecuritylab

[8] Источник: https://habr.com/ru/companies/raft/articles/885048/?utm_campaign=885048&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.