tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.

Читать полностью »

Security-RAG или как сделать AI Security tool на коленке

2025-01-20 в 6:11, admin, рубрики: chromadb, LangChain, langfuse, llm, llm-attack, llm-приложения, ml, искусственный интеллект, промпт-инъекции

Затравочка

LLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях.

Читать полностью »

Обзор уязвимостей для LLM. Часть 1. Атака

2025-01-05 в 13:55, admin, рубрики: bias, gpt-4, refusal training, sota, атаки, дипфейки, подмена номера, промпт-инъекции, промпты, языковые модели

Большие языковые модели где только не применяют: генерируют внешний вид автомобилей, домов и кораблей, саммаризируют круглые столы и конференции, придумывают тезисы к статьям, рассылкам и презентациям. Но при всех «плюшках» от внедрения ИИ, не стоит забывать про безопасность. Большие языковые модели атакуют разнообразными изощрёнными способами. В топе новостей о нейросетях — многомиллионные инвестиции в средства защиты от промпт-инъекций. Поэтому поговорим о том, какие угрозы существуют и почему инвесторы платят большие деньги за создание таких бизнесов. А во второй части статьи расскажу, как от них защищаться.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «промпт-инъекции»

Яндекс.Полуразврат или при чём тут Crypt?

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2

Яндекс.Разврат или анти-этичный ИИ

Security-RAG или как сделать AI Security tool на коленке

Затравочка

Обзор уязвимостей для LLM. Часть 1. Атака

Информация

Комментарии

Рекомендуем

Рубрика «промпт-инъекции»

Яндекс.Полуразврат или при чём тут Crypt?

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2

Яндекс.Разврат или анти-этичный ИИ

Security-RAG или как сделать AI Security tool на коленке

Затравочка

Обзор уязвимостей для LLM. Часть 1. Атака

AI Security с французским привкусом или разбор Securing Artificial Intelligence от ETSI. Часть 2