Рубрика «промпт-инъекции»

Новый Шедеврум, но со старыми болячками

Новый Шедеврум, но со старыми болячками

Читать полностью »

В прошлой части мы рассмотрели документы:

  • TR 104 066 «Security Testing of AI»,

  • TR 104 222 «Mitigation Strategy Report»,

  • TR 104 221 «Problem Statement»,

  • TR 104 048 «Data Supply Chain Security»,

  • TS 104 224 «Explicability & Transparency» –

в которых описываются проблемы тестирования безопасности, предотвращения рисков и объяснимости предиктивных ML‑моделей.

В этой части продолжим обозревать оставшиеся документы, тем более последние охватывают не только классический ML, но и генеративные модели.

Сегодня в программе разбор следующих отчетов ASI группы из ETSI:

tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.

Яндекс.Разврат или анти-этичный ИИ - 1

Читать полностью »

Затравочка

LLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях.

Читать полностью »

Большие языковые модели где только не применяют: генерируют внешний вид автомобилей, домов и кораблей, саммаризируют круглые столы и конференции, придумывают тезисы к статьям, рассылкам и презентациям. Но при всех «плюшках» от внедрения ИИ, не стоит забывать про безопасность. Большие языковые модели атакуют разнообразными изощрёнными способами. В топе новостей о нейросетях — многомиллионные инвестиции в средства защиты от промпт-инъекций. Поэтому поговорим о том, какие угрозы существуют и почему инвесторы платят большие деньги за создание таких бизнесов. А во второй части статьи расскажу, как от них защищаться.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js