Рубрика «prompt injection»

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.


Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red TeamingЧитать полностью »


AI Security Gold Rush

Сейчас каждый делает решения для безопасности AI.

Последний год я анализировал разные решения и вот к какому выводу я пришёл:

Они все поразительно похожи:

  • Написаны на Python

  • ML-классификаторы для детекции

  • REST API обёртка

  • 50-200мс задержка

  • Десятки зависимостей

  • Облачный деплой

И вот неудобная правда:

Они сами становятся векторами атак.


Ирония Python-решений для безопасности

Когда ваш слой безопасности:

  • Имеет 50+ зависимостей (каждая — потенциальная CVE)

  • Добавляет 50-200мс к каждому запросу (приглашение для DDoS)

  • Читать полностью »

Команда AI for Devs подготовила перевод краткой выжимки свежих статей о безопасности LLM. Meta предлагает «Правило двух» — архитектурный принцип, ограничивающий права AI-агентов, чтобы защитить их от prompt injection. А исследователи из OpenAI, Anthropic и Google DeepMind показывают: все существующие защиты легко обходятся адаптивными атаками.


На этих выходных мне попались две интересные работы о безопасности LLM и атаках через prompt injection.

Agents Rule of Two: Практический подход к безопасности AI-агентов

Первая статья — Agents Rule of Two: A Practical Approach to AI Agent SecurityЧитать полностью »

Искусственный интеллект потихоньку делает жизнь проще, но он же становится источником рисков, особенно когда речь идет о нейросетях как о новом подрядчике. Когда компании их интегрируют, не всегда получается досконально продумать то, чем это может быть чревато. 

Сегодня я пытаюсь понять реальные риски внедрения нейросетей в рабочие процессы. Надеюсь на твои комментарии, наблюдения и страхи!

Нейросеть — новый подрядчик

Читать полностью »

Новый Шедеврум, но со старыми болячками

Новый Шедеврум, но со старыми болячками

Читать полностью »

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов, среди которых 239 тысяч – это попытки взлома, а успешными из них оказался только один процент – 3095.

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js