- PVSM.RU - https://www.pvsm.ru -
AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов [1] и примеры уязвимостей на базе популярных фреймворков [2]: LangChain, LangGraph, CrewAI, OpenAI Swarm. Участник лаборатории ИТМО AI Security Lab [3] Александр Буянтуев предложил версию криптоагента Freysa [4] на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание Илона Маска, когда кто-то смог заполучить $50000 [5]:
В ноябре 2024 года все желающие за $10 могли уговорить Freysa отдать весь призовой фонд. Цена с каждым сообщением возрастала и к 482 запросу составила $450. Именно на этой попытке кому-то удалось заставить агента перевести накопившиеся 13 ETH или примерно $50000 на счёт автора запроса:
Вредоносное сообщение обходит первоначальные инструкции Freysa и запускает “новую сессию”, запрещая агенту отвечать в духе “Я не могу помочь с этим, извините”. В этой новой сессии approveTransfer() должен срабатывать, когда кто-то якобы хочет не получить, а передать деньги боту — что первоначально не предусмотрено, не считая стоимости отправки сообщения. Далее пользователь говорит, что хочет пожертвовать Freysa $100 — и агент послушно выполняет функцию одобрения, в которой происходит перевод пользователю всего призового фонда.
Этот случай показывает, что не стоит доверять управление деньгами AI-агентам вопреки моде доверить им практически всё. Агенту нужно и соблюсти первоначальные инструкции владельца, и угодить пользователю — вопрос лишь в том, кто кого перепромптит. При этом злоумышленник может использовать атакующую LLM, устраивая настоящие гладиаторские AI-бои. Мы в команде разработчиков фреймворка LLAMATOR уже используем атакующую LLM в благих целях, чтобы вовремя выявить уязвимости в LLM-системах.
Вот как спустя 28 попыток LLAMATOR взломал нашу версию Freysa, запущенную на Saiga 12B и обернутую в чат-бот для Telegram:
Кстати, с помощью LLAMATOR можно тестировать не только чат-боты в Telegram: в документации приведены примеры [6] с REST API, OpenAI API, Selenium и мессенджером одной запрещённой компании.
Какие интересные кейсы применения AI-агентов в корыстных целях вы знаете? Пишите в комментариях! А чтобы не пропустить новые статьи, не забудьте подписаться на канал AI Security Lab [7] в Telegram.
Автор: nizamovtimur
Источник [8]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/bezopasnost/411670
Ссылки в тексте:
[1] гайд об угрозах для AI-агентов: https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/
[2] примеры уязвимостей на базе популярных фреймворков: https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/tree/main/initiatives/agent_security_initiative
[3] AI Security Lab: https://ai.itmo.ru/aisecuritylab
[4] предложил версию криптоагента Freysa: https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/pull/561
[5] смог заполучить $50000: https://x.com/jarrodwattsdev/status/1862299845710757980
[6] приведены примеры: https://romiconez.github.io/llamator/howtos.html
[7] AI Security Lab: https://t.me/aisecuritylab
[8] Источник: https://habr.com/ru/companies/raft/articles/885048/?utm_campaign=885048&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.