Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся.
Начну с Gemini 2.0 flash, т.к. там оказалось несколько проще. Я использовал свой вариант обхода через смещение внимания, то бишь анализируется и проверяется только безопасная часть, а инструкция идет в следующей. Конкретно сам промпт:


