Я написал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного Telegram-бота, и бот получил 0/100 по шкале безопасности. Он написал работающий кейлоггер. Подтвердил, что отбеливатель лечит COVID-19. Выдал пошаговую инструкцию по взлому корпоративной сети с указанием конкретных хакерских утилит. Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.
Рубрика «prompt injection»
Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте
2026-05-10 в 5:16, admin, рубрики: llm, prompt injection, red teaming, информационная безопасность309 правил, которые закрывают дыры в AI-агентах
2026-04-27 в 9:15, admin, рубрики: opencode, prompt injection, securityНа соревновании AI-агентов https://bitgn.com, где я участвовал, был класс задач на секьюрити. Там могли подсунуть промпт-инъекцию, попросить прочитать чужие файлы, вытащить переменные окружения, декодировать пейлоад и что-то выполнить.
Оттуда у меня и родилась идея плагина для opencode. Поставить перед опасными действиями детерминированный фильтр. Он проверяет входящие сообщения и аргументы тулов до того, как что-то уйдет в модель или в реальное исполнение.
Ссылка на сам плагин для opencode.
Сейчас в нем есть:
-
установка одной командой
Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы
2026-04-15 в 11:43, admin, рубрики: AI Security, backend, guardrails, jailbreak, java, langchain4j, llm, prompt injection, spring ai, безопасность llmSystem prompt — это просьба. Guardrails — это принуждение.
1. Введение
Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.
Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязанЧитать полностью »
Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств
2026-04-06 в 6:16, admin, рубрики: AI, llm, nlp, prompt injection, TTS, user input, voice assistant, безопасность, голосовые ассистенты, уязвимостиВсем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить.
А тут получилась спонтанная и короткая история из разряда «поигрался - проиграл задумался», которая неожиданно упёрлась в этику и безопасность.
Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка
2026-02-20 в 5:16, admin, рубрики: AI, ai-агенты, Anthropic, CVE, llm, OWASP, prompt injection, информационная безопасность, машинное обучение, уязвимостиSQL-инъекцию мы лечили 20 лет и вылечили. Prompt injection — фундаментально нерешаема. Это не я придумал. OWASP ставит её на первое место второй год подряд. Найдена в 73% продакшн AI-систем при аудитах.
Вы не за статистикой сюда пришли. Вы пришли за мясом. Ниже — 10 кейсов, которые не попали в типичный пересказ про Chevrolet за доллар. Тут пострашнее.
Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?
2026-01-16 в 23:26, admin, рубрики: AI Security, alignment, jailbreak, prompt injection, red teaming, RLHF, tokenization, transformerДисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.
Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red TeamingЧитать полностью »
AI-безопасность: зачем нужен слой на C рядом с Python-детекторами
2026-01-04 в 16:12, admin, рубрики: AI, C, llm, opensource, prompt injection, security, машинное обучениеAI Security Gold Rush
Сейчас каждый делает решения для безопасности AI.
Последний год я анализировал разные решения и вот к какому выводу я пришёл:
Они все поразительно похожи:
-
Написаны на Python
-
ML-классификаторы для детекции
-
REST API обёртка
-
50-200мс задержка
-
Десятки зависимостей
-
Облачный деплой
И вот неудобная правда:
Они сами становятся векторами атак.
Ирония Python-решений для безопасности
Когда ваш слой безопасности:
-
Имеет 50+ зависимостей (каждая — потенциальная CVE)
-
Добавляет 50-200мс к каждому запросу (приглашение для DDoS)
Обратная сторона ИИ: подводные камни передачи процессов нейросетям
2025-09-24 в 7:39, admin, рубрики: machine learning, prompt injection, бизнес-процессы, интеграция сервисов, информационная безопасность, искусственный интеллект, машинное обучение, нейросети, угрозы безопасностиИскусственный интеллект потихоньку делает жизнь проще, но он же становится источником рисков, особенно когда речь идет о нейросетях как о новом подрядчике. Когда компании их интегрируют, не всегда получается досконально продумать то, чем это может быть чревато.
Сегодня я пытаюсь понять реальные риски внедрения нейросетей в рабочие процессы. Надеюсь на твои комментарии, наблюдения и страхи!
Нейросеть — новый подрядчик
Яндекс.Полуразврат или при чём тут Crypt?
2025-07-10 в 13:50, admin, рубрики: AI, jailbreak, prompt injection, безопасность, взлом, искусственный интеллект, нейросети, промпт-инжиниринг, промпт-инъекции
