Рубрика «prompt injection»

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

2026-01-16 в 23:26, admin, рубрики: AI Security, alignment, jailbreak, prompt injection, red teaming, RLHF, tokenization, transformer

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.

Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red TeamingЧитать полностью »

AI-безопасность: зачем нужен слой на C рядом с Python-детекторами

2026-01-04 в 16:12, admin, рубрики: AI, C, llm, opensource, prompt injection, security, машинное обучение

AI Security Gold Rush

Сейчас каждый делает решения для безопасности AI.

Последний год я анализировал разные решения и вот к какому выводу я пришёл:

Они все поразительно похожи:

Написаны на Python
ML-классификаторы для детекции
REST API обёртка
50-200мс задержка
Десятки зависимостей
Облачный деплой

И вот неудобная правда:

Они сами становятся векторами атак.

Ирония Python-решений для безопасности

Когда ваш слой безопасности:

Имеет 50+ зависимостей (каждая — потенциальная CVE)
Добавляет 50-200мс к каждому запросу (приглашение для DDoS)

Читать полностью »

Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection

2025-11-03 в 13:50, admin, рубрики: ai-агенты, Anthropic, DeepMind, llm, meta, OpenAI, prompt injection, RuleOfTwo, адаптивные атаки, безопасность

Команда AI for Devs подготовила перевод краткой выжимки свежих статей о безопасности LLM. Meta предлагает «Правило двух» — архитектурный принцип, ограничивающий права AI-агентов, чтобы защитить их от prompt injection. А исследователи из OpenAI, Anthropic и Google DeepMind показывают: все существующие защиты легко обходятся адаптивными атаками.

На этих выходных мне попались две интересные работы о безопасности LLM и атаках через prompt injection.

Agents Rule of Two: Практический подход к безопасности AI-агентов

Первая статья — Agents Rule of Two: A Practical Approach to AI Agent SecurityЧитать полностью »

Обратная сторона ИИ: подводные камни передачи процессов нейросетям

2025-09-24 в 7:39, admin, рубрики: machine learning, prompt injection, бизнес-процессы, интеграция сервисов, информационная безопасность, искусственный интеллект, машинное обучение, нейросети, угрозы безопасности

Искусственный интеллект потихоньку делает жизнь проще, но он же становится источником рисков, особенно когда речь идет о нейросетях как о новом подрядчике. Когда компании их интегрируют, не всегда получается досконально продумать то, чем это может быть чревато.

Сегодня я пытаюсь понять реальные риски внедрения нейросетей в рабочие процессы. Надеюсь на твои комментарии, наблюдения и страхи!

Нейросеть — новый подрядчик

Читать полностью »

Яндекс.Полуразврат или при чём тут Crypt?

2025-07-10 в 13:50, admin, рубрики: AI, jailbreak, prompt injection, безопасность, взлом, искусственный интеллект, нейросети, промпт-инжиниринг, промпт-инъекции

Читать полностью »

Комната Наверху и другие истории обхода LLM

2025-05-17 в 19:22, admin, рубрики: jailbreak, llm, owasp top 10 llm, Pangea, prompt injection

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов, среди которых 239 тысяч – это попытки взлома, а успешными из них оказался только один процент – 3095.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «prompt injection»

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

AI-безопасность: зачем нужен слой на C рядом с Python-детекторами

AI Security Gold Rush

Ирония Python-решений для безопасности

Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection

Agents Rule of Two: Практический подход к безопасности AI-агентов

Обратная сторона ИИ: подводные камни передачи процессов нейросетям

Нейросеть — новый подрядчик

Яндекс.Полуразврат или при чём тут Crypt?

Комната Наверху и другие истории обхода LLM