Рубрика «безопасность llm»

System prompt — это просьба. Guardrails — это принуждение.


1. Введение

Когда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.

Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязанЧитать полностью »

Существует такой класс защиты LLM firewall, который по названию должен выглядить как аналог WAF/FW для ИИ‑приложений: фильтр для проходящего трафика с распознаванием специфичных угроз. На практике с этим сложнее. В статье разберем LLM firewall — что это, какие угрозы он закрывает и куда движется развитие.

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js