
Рубрика «промпт-инъекции»
Яндекс.Полуразврат или при чём тут Crypt?
2025-07-10 в 13:50, admin, рубрики: AI, jailbreak, prompt injection, безопасность, взлом, искусственный интеллект, нейросети, промпт-инжиниринг, промпт-инъекции
AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2
2025-06-19 в 8:37, admin, рубрики: OWASP, безопасность ии, информационная безопасность, промпт-инъекции, стандарты безопасностиВ прошлой части мы рассмотрели документы:
-
TR 104 066 «Security Testing of AI»,
-
TR 104 222 «Mitigation Strategy Report»,
-
TR 104 221 «Problem Statement»,
-
TR 104 048 «Data Supply Chain Security»,
-
TS 104 224 «Explicability & Transparency» –
в которых описываются проблемы тестирования безопасности, предотвращения рисков и объяснимости предиктивных ML‑моделей.
В этой части продолжим обозревать оставшиеся документы, тем более последние охватывают не только классический ML, но и генеративные модели.
Сегодня в программе разбор следующих отчетов ASI группы из ETSI:
Яндекс.Разврат или анти-этичный ИИ
2025-04-16 в 12:19, admin, рубрики: Безопастность, взлом, нейронные сети, нейросети, промпт-инжиниринг, промпт-инъекции, промптинг, этикаtl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.

Security-RAG или как сделать AI Security tool на коленке
2025-01-20 в 6:11, admin, рубрики: chromadb, LangChain, langfuse, llm, llm-attack, llm-приложения, ml, искусственный интеллект, промпт-инъекцииЗатравочка
LLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях.
Обзор уязвимостей для LLM. Часть 1. Атака
2025-01-05 в 13:55, admin, рубрики: bias, gpt-4, refusal training, sota, атаки, дипфейки, подмена номера, промпт-инъекции, промпты, языковые моделиБольшие языковые модели где только не применяют: генерируют внешний вид автомобилей, домов и кораблей, саммаризируют круглые столы и конференции, придумывают тезисы к статьям, рассылкам и презентациям. Но при всех «плюшках» от внедрения ИИ, не стоит забывать про безопасность. Большие языковые модели атакуют разнообразными изощрёнными способами. В топе новостей о нейросетях — многомиллионные инвестиции в средства защиты от промпт-инъекций. Поэтому поговорим о том, какие угрозы существуют и почему инвесторы платят большие деньги за создание таких бизнесов. А во второй части статьи расскажу, как от них защищаться.