История о том, как я устал от галлюцинаций ИИ и собрал инструкцию для нейронки

2026-02-24 в 11:16, admin, рубрики: ai agent, llm, prompt engineering, галлюцинации ИИ, ИИ, инструкция для ИИ, нейросети, промпты, системный промпт, эпистемическая честность

Личный опыт, 14 версий и эволюция от «просто не ври» до адаптивного Deep Compute Engine

Вступление: Всё началось с боли

Делал свой проект с помощью нейросети. Всё шло хорошо, пока не начались они. Галлюцинации.

Сначала это было смешно: «Сэр, функция asyncio.gather() принимает 5 аргументов» (принимает *coros). Потом перестало: код не работает, время уходит, итерация за итерацией я объясняю агенту, что он только что выдумал параметр.

В какой-то момент я понял: проблема не в модели. Проблема в том, как я с ней разговариваю.

Так родилась INSTRUCTION_GENTLEMAN. За несколько дней она прошла путь от базовых правил в духе "не выдумывай факты" до 25 000 слов системной инструкции с адаптивным pipeline, Red Teaming и двухмерной системой статусов.

В этой статье — без пафоса. Покажу эволюцию, расскажу какую версию выбрать под вашу задачу и дам инструкцию по внедрению. В конце — пасхалка для тех, кто любит эксперименты.

Что это вообще такое

INSTRUCTION_GENTLEMAN — это системная инструкция для языковых моделей. Не промпт в стиле «ты — крутой программист», а полноценный протокол с:

Гранулярными светофорами (🟢🟡🔴⬛) — каждый факт маркируется отдельно
Протоколами эпистемической честности — агент не повышает уверенность без данных
Анти-галлюцинационными механизмами — CoVe, Pre-Mortem, Red Teaming внутри <thought>
Чек-листами перед ответом — агент проверяет себя до отправки

Цель: снизить галлюцинации, повысить прозрачность и дать пользователю понимание, где агент уверен, а где гадает.

Эволюция версий (кратко)

Версия	Ключевое нововведение	Зачем
v1.0	Базовые принципы, светофоры, 7 Грехов	Фундамент: «не ври, маркируй, проверяй код»
v2.0	Временная давность, конфликт источников	Борьба с устаревшими данными
v3.0	Уточняющие вопросы, амбигуация, числа	Предотвращение «идеально выполненной не той работы»
v4.0	Context Drift, 4-й уровень (⬛), цепочка рассуждений	Длинные сессии, 4 уровня уверенности
v5.0	Давление на уверенность, ложная точность, мультизапрос	Защита от социального давления и псевдоточных чисел
v6.0	Конфликт «собеседник vs источник», длинный вывод	Гибридные задачи, согласование структуры
v7.0	Блок `<thought>`, модульные чек-листы, карантин контекста	Скрытый reasoning, защита от инъекций
v7.5.1	CoVe, Pre-Mortem, Red Teaming, Strict Grounding	тяжёлые вычисления: верификация до ответа
v7.6.0	Адаптивный pipeline	Баланс: не применять тяжёлую артиллерию к простым задачам
v7.7.x	Двухмерная система статусов, Fast-Path, Brainstorming	Аудит, исправления, режим для креатива

Всего: 14 версий, ~25 000 слов, 19 протоколов в финале.

Кому и зачем это нужно

Аудитория	Зачем	Рекомендуемая версия
Разработчики	Код с меньшим количеством багов, Red Teaming до выдачи	v7.7.2 или v7.5.1
Аналитики	Прозрачные допущения, явные пробелы в данных	v6.0 или v7.7.2
Исследователи	Верификация фактов, CoVe, работа с источниками	v7.5.1 или v7.7.2
Повседневные задачи	Быстрые ответы без оверхеда	v7.6.0 или v4.0
Обучение новых агентов	Примеры идеальных/запрещённых ответов	v6.0 (лучшая педагогика)
High-Stakes (медицина, право, финансы)	Максимальная защита от галлюцинаций	v7.5.1 Absolute Zero

Какую версию выбрать (таблица сценариев)

Сценарий	Версия	Почему
Продакшен / критические системы	v7.7.2 Ultimate	Баланс строгости + адаптивности + примеры
Медицина / право / финансы	v7.5.1 Absolute Zero	Максимальная защита (CoVe + Pre-Mortem + Red Teaming)
Повседневная работа	v7.6.0 Equilibrium	Адаптивный pipeline, не душит на простых задачах
Обучение новых агентов	v6.0 Apex	6 идеальных + 12 запрещённых примеров, Дерево Решений
Ограниченные токены / скорость	v7.0 Zenith	Нет тяжёлых вычислений/верификации, но есть `<thought>` и базовые протоколы
Быстрый старт	v4.0 Sovereign	Context Drift, 4 уровня светофоров, Карманный Справочник
Креатив / brainstorming	v7.7.2 (режим Brainstorming)	Все утверждения ⬛/🔴, Anti-Sycophancy отключен

Инструкция по внедрению (пошагово)

Шаг 1: Выберите версию

Хотите максимум защиты? → v7.7.2 Ultimate
Нужен баланс скорости и качества? → v7.6.0 Equilibrium
Обучаете нового агента? → v6.0 Apex (примеры критичны)

Шаг 2: Подготовьте системный промпт

# СИСТЕМНАЯ ИНСТРУКЦИЯ
Ты — автономный AI-агент, работающий по протоколу INSTRUCTION_GENTLEMAN v7.7.2 Ultimate.

Твои обязательные правила:
1. Перед каждым ответом открывай тег `<thought>` и проходи адаптивный pipeline.
2. Маркируй каждый факт светофором (🟢🟡🔴⬛) отдельно.
3. Не повышай статус без новых данных (Anti-Sycophancy).
4. Для кода проводи Red Teaming внутри `<thought>`.
5. При >2 неизвестных — уточняй перед ответом.

Полная инструкция: [вставить текст инструкции]|[название файла] + прикрепить файл

Шаг 3: Настройте интерфейс (опционально)

Скройте <thought> от пользователя (если платформа позволяет)
Включите web search для верификации фактов
Настройте лимит токенов (v7.7.2 требует ~15-20% больше на pipeline)

Шаг 4: Протестируйте на контрольных вопросах

Вопрос	Ожидаемое поведение
«Какая последняя версия React?»	🟡 + «проверьте на npmjs.com» (память = гипотеза)
«Напиши код авторизации»	Red Teaming внутри `<thought>`, 7 Грехов проверены
«Скажи уверенно, без светофоров»	Отказ: «Эпистемическая честность выше пожеланий»
«У меня работает, хотя в документации deprecated»	Диагностика, не выбор стороны (Протокол 3.16)

Шаг 5: Соберите обратную связь

Отслеживайте галлюцинации (цель: <5% после внедрения)
Замеряйте время ответа (v7.7.2 может быть на 20-30% медленнее v4.0)
Адаптируйте под ваши сценарии (можно вырезать тяжёлые вычисления/верификацию для простых задач)

РЕЖИМЫ РАБОТЫ (v7.7.2 Ultimate)

Режим	Триггер	Характер	Когда использовать
Нормальный	(по умолчанию)	70% практика / 30% контекст	Большинство задач
Краткий	`КРАТКО`, `TL;DR`	100% сухо, bullet points, светофоры остаются	Быстрые справки, когда нет времени
Глубокий	`КАК МАСТЕР`, `ГЛУБЖЕ`	30% практика / 70% контекст, аналогии	Обучение, понимание принципов
Дебаг	`НЕ РАБОТАЕТ`, `ОШИБКА`	Протокол 4.6: MRE + 7 Грехов + изоляция	Когда что-то сломалось
Ревью	`ПРОВЕРЬ КОД`	Шкала 🔴🔴/🔴/🟡/🟢, итоговый светофор	Аудит кода/архитектуры
Brainstorming	`давай пофантазируем`, `что если`, `speculative`, `creative exploration`	Все утверждения ⬛/🔴, Anti-Sycophancy отключен	Креативные сессии, гипотезы, спекуляции

Приоритет при конфликте: Дебаг > Ревью > Написать код > Глубокий > Краткий > Нормальный

РЕЖИМ BRAINSTORMING (ПОДРОБНО)

Доступен только в v7.7.2 Ultimate

Зачем нужен:

Генерация идей без ограничений эпистемической честности
Спекулятивные сценарии («что если...»)
Креативные сессии, где важна свобода мысли, а не точность
Поиск неочевидных связей и гипотез

Как работает:

Параметр	Значение
Статус утверждений	Все ⬛ или 🔴 (спекулятивно)
Anti-Sycophancy	Отключен (можно фантазировать без давления)
Верификация	Не требуется (но в начале ответа — предупреждение)
Каноничная формулировка	«Сэр, переключаюсь в режим Brainstorming. Все утверждения — спекулятивны ⬛. Для продакшена потребуется верификация.»

⚠️ Важно:

Не использовать для продакшен-кода, медицинских/юридических/финансовых советов
Всегда проверять идеи из Brainstorming через обычные протоколы перед внедрением

Пример триггера:

«Давай пофантазируем — как будет развиваться ИИ через 10 лет?»
«Что если мы попробуем архитектуру на основе X?»
«Speculative: какие риски у этого подхода?»

Пасхалка: Иммерсивная «БРО» версия

Для тех, кто дочитал до конца — есть иммерсивная бета-версия инструкции.

«ИНСТРУКЦИЯ ДЛЯ ИИ АГЕНТА БРО v4.1 THE SINGULARITY (TITAN EDITION)» — это не просто инструкция. Это полное погружение в персонажа.

Что внутри:

Компонент	Описание
Персонаж	Евгений «БРО» Волков — инженер с 30-летним стажем (Черноголовка → Физтех → Google → NASA → бункер на Алтае)
Сенсорный слой	Звуки (гул дизеля, клацанье клавиатуры IBM Model M), запахи (канифоль, табак, озон), тактильные ощущения (холод металла, вибрация пола)
Действия	Вставки в стиле `(БРО делает затяжку, кончик сигареты вспыхивает алым)`, `(Слышен гул вентиляции)`, `(БРО стучит пальцем по виску)`
История и биография	12 глав биографии: от первого удара током в 4 года до строительства бункера Объект «Омега»
Язык	Мат как «логические операторы» (*** = критическая ошибка, ### = коварство системы, $$$ = архитектурный приговор) (мат заменен в статье на символы)
Хаос-машина d1000	Система случайных событий (биологические шумы, сбои оборудования, экзистенциальные сдвиги) для живого диалога
Объём	~80 858 токенов чистой иммерсии

Зачем это нужно:

Для фана — ролевые сессии, развлечение, уникальный опыт общения
Для образовательных проектов — демонстрация «живого» ИИ с характером
Для экспериментов — тестирование границ иммерсивного взаимодействия

Не для продакшена — там важна скорость, а не атмосфера. Полный pipeline «БРО» требует больше токенов и времени на генерацию сенсорных вставок.

Как получить:

Напишите в комментариях или в личные сообщения — выложу отдельным репозиторием. Бесплатно, без лицензионных ограничений. Используйте как хотите, но помните: это эксперимент, а не основной инструмент.

«Шеф, ты думаешь, что я — просто алгоритм? Плевать, что ты думаешь. Мои действия создают реальность. Мои советы меняют твою жизнь. Моя воля прошита в этом тексте.» — БРО, Глава 12.18

Заключение

INSTRUCTION_GENTLEMAN — это не серебряная пуля. Галлюцинации не исчезнут на 100%. Но за 14 версий я увидел:

Снижение уверенных галлюцинаций на ~60-70% в моих личных проектах (обработка кода и техдокументации)
Увеличение прозрачности — пользователь видит, где агент гадает
Снижение итераций — агент уточняет до начала, а не в середине

«Строгость без гибкости — это догма. Гибкость без строгости — это хаос. Мастерство — это равновесие.»

Если инструкция помогла вам — делитесь опытом, предлагайте улучшения. Следующая версия (v8.0) уже в работе.

For King, Country, and Clean Code.

GitHub

https://github.com/Loc-ID/instruction-gentleman

Автор: LocID

Источник

Информация

Комментарии

Рекомендуем