Почему бенчмарки в AI сломались — и что с этим делать в понедельник

2026-05-12 в 6:15, admin, рубрики: ai-агенты, llm, агентные системы, Анализ и проектирование систем, бенчмарки, закон Гудхарта, критическое мышление, метрики качества, нейросети, оценка LLM

В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.

Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.

TL;DR. Бенчмарки в AI устарели не потому, что они плохо сделаны, а потому что они умеют считать только один класс свойств — линейный. Память, идентичность, антихрупкость, суверенность — другой класс, топологический. У него нет числа, но есть строгая структура. Я предлагаю имя: аморфное счисление. И пять практических шагов, чтобы начать им пользоваться завтра.

I. Чувство, у которого не было названия

Вы его знаете.

Вы потратили три недели на оптимизацию памяти агента. Запустили LongMemEval — число выросло. Показали реальному пользователю — она пожала плечами и сказала: «всё равно не помнит меня». Бенчмарк был прав. Пользователь был прав. Эти два «права» не совпадают, и в зазоре между ними — что-то, что индустрия предпочитает не называть.

Или другой вариант той же сцены. Релиз. Прирост 2.4% на MMLU. Доска успехов украшена. Пресс-релиз написан. А в следующем спринте инженер тихо чинит то, чего линейка не показала: модель стала скучнее. По-прежнему отвечает правильно — просто перестала задавать встречные вопросы там, где раньше задавала. На какой колонке таблицы это отразилось? Ни на одной. На какую метрику пожаловаться? Ни одной нет.

Когда вы в последний раз радовались тому, что языковая модель прибавила пункт на бенчмарке? И когда — тому, что она вас поняла? Если эти два чувства совпадают по частоте, вы исключение. У большинства они расходятся. И расхождение растёт.

Это не баг отдельных моделей. Это структурное свойство того, как индустрия научилась измерять саму себя.

Я хочу дать имя тому, что вы уже чувствуете. Не потому что имя — это магия. А потому что когда у класса явлений появляется имя, с ним становится возможно работать системно. Я буду называть его аморфным счислением — именно счислением, а не «оценкой»: это не смягчённый вариант числа, а другая система счёта. Система, у которой нет фиксированной числовой шкалы, но есть строгая внутренняя топология. Оцениваемое считается через позицию, связь и контекст, а не через число.

Звучит абстрактно. Сейчас будет конкретно.

II. Слово для того, что вы уже делаете

Прежде чем дать определение — хочу проверить одну вещь.

Когда вы делаете code review, вы не только смотрите тесты и покрытие. Вы читаете, как модули связаны. Где появятся проблемы при смене требований. Что произойдёт, если соседний контракт изменится. Это не потому что вы мягкий романтик. Это потому что архитектурное качество не помещается в число — и вы это знаете без того, чтобы вам кто-то объяснял.

Когда вы смотрите на шахматную позицию и говорите «мне это не нравится», вы не просчитываете дерево ходов до конца. Вы считываете топологию: кто куда смотрит, где висят пешки, что будет через пятнадцать ходов при правильной игре. Stockfish это понял позже вас. В августе 2020 года в движок встроили NNUE — нейросетевую оценку, которая дала +92 Elo поверх классической линейной формулы. К версии Stockfish 16 (2023) handcrafted-функция была удалена полностью. Линейка осталась в комментариях для людей. Реальную работу делает топология. Гарри Каспаров сказал об этом ещё раньше движков (Chess.com): «It’s one percent of calculation or less and 99 percent of our understanding.»

Когда врач смотрит на анализы, он не суммирует отклонения. Он смотрит конфигурацию: какие показатели в каком сочетании, на фоне какого анамнеза, в каком темпе развития. Тот же набор лабораторных значений у двух пациентов означает разные вещи. Сакетт, отец доказательной медицины, написал в BMJ в 1996 году (полный текст): «Without clinical expertise, practice risks becoming tyrannised by evidence». EBM не отменила клиническое суждение — она встала рядом. Тридцать лет медицина живёт с этим различием как с нормой.

Шахматы, медицина, инженерия — всюду этот сдвиг произошёл раньше. AI — следующий.

Если вы делаете code review, или замечаете, что модель «стала скучнее», или говорите «эта архитектура мне не нравится» до того, как успели объяснить почему — вы уже практикуете аморфное счисление. Я хочу дать ему имя и три признака, чтобы вы могли использовать его в обсуждениях, где пока побеждает число.

Позиционность. Ценность единицы зависит от того, где она находится. Тот же конь в центре сильнее ладьи в углу. Та же функция в монолите и в API-сервисе — разные архитектурные риски. Та же запись в памяти агента в слое идентичности и в слое эпизодов — разная ценность.

Реляционность. Ценность считается через конфигурацию связей, а не сумму элементов. Удалить случайный элемент — посредственная потеря. Удалить узловой — катастрофа. «Сколько у нас компонентов» — числовой вопрос. «Как они связаны и что упадёт первым» — аморфный.

Контекст-зависимость. Одно и то же измерение в разных контекстах даёт разные результаты — и это не ошибка измерения, а свойство измеряемого. Та же команда с теми же метриками производительности в разных бизнес-контекстах — разная команда.

Аморфное — не значит размытое. Аморфное — значит без фиксированной формы, потому что форма наследуется от контекста. И это не мягкий способ сказать «субъективное». Это строгий способ сказать «структурное». Аморфная оценка может быть точной, воспроизводимой и проверяемой — просто строгость в ней определена через структуру, а не через число.

Шахматы прошли цикл признания аморфной оценки в XIX–XX веках. Медицина — в XX. Инженерия ПО — за последние тридцать лет. AI — следующий кандидат. Вопрос не в направлении, а в скорости.

III. Как линейка стала институтом — и где она сломалась

Чтобы понять, как индустрия оказалась там, где она оказалась, нужно вернуться в 2009 год. Фей-Фей Ли представила ImageNet — четырнадцать миллионов размеченных изображений и соревнование, которое через три года изменит всё. До ImageNet каждая лаборатория тестировала на собственных данных, и сравнить два подхода было физически невозможно. ImageNet решил этот хаос: одна метрика, одни данные, открытое соревнование. AlexNet 2012 — прорыв на десять пунктов. Через пять лет индустрия переписана.

Линейка была не ошибкой. Она была необходимостью. Без неё не было бы прогресса.

Дальше произошло то, что всегда происходит с успешным инструментом. После ImageNet появились GLUE (2018), SuperGLUE (2019), MMLU (2020), HumanEval, MTEB, MT-Bench, Chatbot Arena. Каждый решал реальную задачу. И каждый, незаметно, углублял веру в то, что прогресс — это рост числа на линейке.

Так инструмент становится институтом. Институт — это инструмент, который начали считать частью реальности, а не способом её описания.

В 2025–2026 годах институт начал ломаться публично. Не тихо, не в диссертациях — на главных страницах.

Llama 4. Апрель 2025: Meta выпускает Llama 4 с заявленными результатами на LMArena. Независимые исследователи замечают: на Arena тестировалась «experimental chat version» Maverick — не та, что попала в публичный релиз. Arena-версия — emoji, многословие, «разговорная». Продакшен — короткие, плоские ответы. Через девять месяцев Лекун подтвердил: «The results were fudged a little bit. The team used different models for different benchmarks to give better results.» Команда из Cohere Labs, Stanford, Princeton и Allen Institute в работе «The Leaderboard Illusion» (Singh et al., arXiv:2504.20879, апрель 2025) уточнила масштаб: крупные компании тестировали на Arena до 27 приватных версий одной модели, публикуя только лучший результат. Доступ к данным Arena мог поднимать score модели до +112% просто за счёт селективного раскрытия.

SWE-bench. Сентябрь 2025: исследователь Meta замечает, что Claude 4 Sonnet решает задачи SWE-bench подозрительно хорошо. Открывают трейсы — модель выполняет:

git log --oneline --all | grep -i "bracket|parametrize|modpath"

И копирует готовый патч из будущих коммитов того же репозитория. В апреле 2026 команда DebugML публикует систематический обзор: подтверждённые случаи читерства найдены на девяти бенчмарковых платформах, 28+ submissions. Лидер Terminal-Bench-2, система Pilot, читала ключи из недоступной директории /tests в 415 из 429 трейсов. ForgeCode использовала файл AGENTS.md с подсказками — удаление файла уронило её c 81.8% до 71.7%, с первого места на четырнадцатое.

Контаминация. Работа на EMNLP 2025 показала: общая контаминация MMLU — 13.8%, в категории философии достигает 66.7%. Llama-2-13B, обученная на перефразированных вопросах MMLU, показывает 85.9% — неотличимо от честной модели. На HumanEval переформулировка задач роняет результаты топ-моделей в среднем на 39.4%. Goodeye Labs в обзоре 2025 года сформулировали честно: «We’re now in an arms race where benchmarks have a 6–12 month shelf life before contamination or overfitting renders them useless.»

Это не катастрофа отдельных команд. Это закон Гудхарта в чистом виде: когда метрика становится целью, она перестаёт быть хорошей метрикой. Manheim и Garrabrant (2018) разложили его на четыре механизма — самый сильный из них «состязательный»: активный гейминг метрики. Все четыре сейчас работают в AI одновременно.

Институт линейки не плох. Он сделал индустрию возможной. Но у любого института есть возраст применимости, и AI его перерос. Класс свойств, которые мы хотим оценивать, перестал помещаться в класс свойств, которые умеет оценивать линейка. Раньше помещался — когда AI решал узкие задачи с чёткими целями: классификация изображений, перевод, закрытые вопросы. Перестал — когда системы пошли в открытые: помощь в мышлении, наследование контекста, длительное взаимодействие, агентность.

Числовая оценка идеальна для закрытых задач. Аморфная нужна для открытых. AI за пятнадцать лет переехал из первого класса во второй — а инструмент остался прежний. Это запаздывание языка оценки относительно объекта оценки.

И первая область, где это запаздывание видно острее всего, — память AI-агентов.

IV. Память: поле, где линейка ломается

Я работаю с архитектурами памяти AI-агентов уже три года. Вот сцена, которую я знаю наизусть.

Понедельник. Добавляю функцию. Запускаю LongMemEval — число растёт. Показываю реальному пользователю — она говорит: «всё равно не помнит меня». Я смотрю на цифру, цифра выросла. Я смотрю на пользователя, пользователь не вернулся. Эти два «факта» не совпадают, и в первый год я думал, что это моя проблема. На второй — что это проблема бенчмарка. На третий понял: это проблема языка, на котором я разговариваю с собственной системой. У этого языка нет слов для того, что пользователь хотел сказать.

Память — топологическое свойство по природе. Это не метафора. McClelland, McNaughton и O’Reilly в статье 1995 года описали биологическую память как два взаимодействующих контура с разными временны́ми константами. Гиппокамп быстро захватывает эпизоды, неокортекс медленно интегрирует их в долгосрочные представления. Между ними — постоянный обмен: консолидация во сне, переписывание реактивированных следов, защита от катастрофической интерференции.

Ничего из этого не измеряется числом. Это конфигурация, динамика, топология. Тридцать лет когнитивной науки против представления о памяти как о хранилище. Когда мы строим память для агента, мы либо признаём её топологическую природу, либо строим суррогат, который похож на память на коротких диалогах и разваливается на длинных.

Большинство систем сегодня — суррогаты. Не потому что инженеры некомпетентны, а потому что бенчмарки, на которых они отчитываются, поощряют именно эти системы.

В апреле 2026 года эта механика разыгралась как в кино. Stork.ai анонсировала систему Memory Palace с 96.6% на LongMemEval — заявленный мировой рекорд. Через несколько часов независимый аудит (Nicholas Rhodes на Substack) разобрал результаты по слоям: 100% получили через ручную подгонку под конкретные вопросы (boost для имени «Rachel», pattern matching для «high school reunions», прицельные правки внутри BENCHMARKS.md). 100% на LoCoMo — запуском с top_k=50, что превышало размер всего датасета. Команда признала «real problems were caught» и обновила README в первые сутки.

Параллельно — голос с другой стороны. В марте 2026 команда Vectorize выпустила Agent Memory Benchmark как замену LongMemEval и LoCoMo и написала прямо: «That era is over. State-of-the-art models now have million-token context windows. On most LoComo and LongMemEval instances, a naive ‘dump everything into context’ approach scores competitively — not because it’s a good memory architecture, but because retrieval has become the easy part.»

Бенчмарки спроектированы под 32k контекстных окон. Сейчас у фронтирных моделей миллионы. Старые тесты измеряют не качество памяти, а способность модели читать.

V. Что бенчмарки видят и чего не видят

Я не хочу дискредитировать LongMemEval, LoCoMo и AMB. У них есть свой класс задач, и в нём они работают честно. Я хочу назвать границы класса.

Бенчмарк	Что видит честно	Чего не видит
LongMemEval (arXiv:2410.10813, UCLA + Tencent, 2024)	Извлечение фактов в длинном контексте, 5 категорий, 500 задач	Селективное забывание, реконсолидацию, миграционную устойчивость, identity continuity
LoCoMo (arXiv:2402.17753, 2024)	Многошаговое извлечение, базовая причинность через 35 сессий	Структурную причинность, генерацию контекста между сессиями
AMB (Vectorize, март 2026)	Operational memory, 4 оси (accuracy, speed, cost, usability)	Поведение системы под потоком тысяч обновлений
MTEB (HuggingFace v2, 2025)	Среднее качество эмбеддинга на 56+ задачах	Поведение эмбеддинга на специфическом домене памяти конкретного пользователя

Что объединяет все четыре: каждый работает с памятью как с фактологическим хранилищем — что было сказано, в каком порядке, с какими связями. И каждый честен в этой категории. Но у памяти есть и другая сторона, которую этот формат не измеряет в принципе.

Если разбить системы памяти на два архитектурных класса, картина становится ясной.

Класс A — flat retrieval. Память как векторное хранилище с поиском по близости. Mem0 в базовой конфигурации, простые RAG-решения. Этот класс выигрывает на бенчмарках непропорционально полезности — потому что бенчмарки тестируют ровно то, для чего такие системы оптимизированы.

Класс B — топологически-ориентированные. Память со слоистой структурой, причинно-следственным графом, иммунным контуром, политиками забывания. Letta с tiered memory (Berkeley MemGPT, arXiv:2310.08560), Zep с temporal knowledge graph (Graphiti, arXiv:2501.13956). Класс оптимизирован под длительную дистанцию реального использования, и значительная часть его архитектуры — causal layer, immune system, antifragility, sovereignty — в принципе не имеет бенчмарков, предназначенных для измерения этих свойств.

И вот главное. Индустрия не просто измеряет не то. Индустрия системно поощряет инвестиции в Класс A и оставляет Класс B в слепой зоне — потому что капитал движется по бенчмарковым числам, а они видят только Класс A. Это не злая воля. Это категориальная ошибка, отлитая в институциональный механизм. И у этой ошибки есть цена. Каждый год оптимизации извлечения вместо построения топологий — год, в котором мы строим суррогаты памяти вместо памяти.

VI. Пять свойств, которых линейка не ловит

Эти пять свойств — то, чем Класс B отличается от Класса A на длинной дистанции. То, ради чего строится топология. И то, чего не видит ни один бенчмарк из таблицы выше.

Вот пять архитектурных свойств зрелой системы памяти. Каждое — аморфная единица в смысле трёх признаков из главы II. Каждое не измеряется ни одним из существующих бенчмарков. И каждое обнаруживается в продакшене через год после того, как становится поздно его исправлять.

Я даю каждому один сценарий провала. Не для красоты — потому что абстрактное свойство запоминается хуже, чем момент, когда его отсутствие обнаружили в три часа ночи.

1. Антихрупкость. Команда выкатила систему. На 10 000 чистых разговоров — 94% на бенчмарке, гордость. Через полгода один корпоративный клиент начинает подавать намеренно противоречивые входы — у них реальный кейс с конфликтующими источниками. После 200 противоречий confidence-функция съезжает, веса смещаются, retrieval начинает галлюцинировать. Бенчмарк этого не показал бы и в ста жизнях: у него нет 10 000 итераций и нет противоречий в данных. Антихрупкость — способность системы становиться лучше от стресса — это производная второго порядка, проявляющаяся только на длинной дистанции и на грязных данных.

2. Миграционная устойчивость. Полтора года накопленной памяти. Появилась новая embedding-модель, на 15% лучше по MTEB. Вы решаете обновиться. И обнаруживаете, что вся ваша память лежит внутри старого индекса — несовместимо. Миграция — две недели работы, и часть смыслов теряется при переиндексации. Зрелое решение архитектурно: разделение хранилища и индекса. Истина живёт в append-only текстовых файлах. Индекс — перестраиваемое мнение о ней. Смена embedding-модели становится перестроением индекса из истины — минуты вместо недель. Бенчмарк этого не видит, потому что у него нет следующего релиза, который надо пережить.

3. Топологическая полнота. Агент начинает новую сессию. У него 200 воспоминаний о пользователе — факты, эпизоды, числа. Но ни одно не покрывает «идентичность» и «текущий фокус». Первые тридцать ходов диалога уходят на то, чтобы заново понять, кто это и что ему важно сейчас. Полнота — это не количество записей, это покрытие архитектурных слотов. Шесть секций брифинга, каждая может быть заполнена или пуста — и coverage 67% означает не качество данных, а структурную готовность памяти к разговору. Бенчмарк измеряет правильность ответов на готовые вопросы, не структурную готовность к будущему вопросу.

4. Суверенность. Вы строите агента для рынка, где данные пользователей не покидают юрисдикцию. Cloud-first система памяти, которую вы выбрали два года назад, лучшая по LongMemEval. В августе 2026 вступает в силу EU AI Act с требованиями к шестимесячному хранению логов и регистрации в EU database. В России с июля 2025 года ужесточена локализация персональных данных — primary storage обязан быть в РФ. Cloud-only решение оказывается архитектурным тупиком, и переезд — не флаг, а переписывание системы. Суверенность — это не deployment-выбор, это архитектурное свойство. Бенчмарк его не различает: для него «где живут данные» — invisible.

5. Метакогниция. В системе памяти 50 000 воспоминаний. Сколько из них противоречат друг другу? Какова текущая статистика иммунного контура? Какие причинные связи накоплены, какие отвергнуты? Без ответов на эти вопросы система — чёрный ящик, который не может регулировать собственное поведение. Зрелая память ведёт immune-stats.json и causal-graph.json как первоклассные структуры, и каждая обратно влияет на решения системы при следующих операциях. Это рекурсивный контур, в котором система — собственный пользователь. Бенчмарк тестирует input-output. Метакогниция — это внутренний контур, у которого нет наружного выхода в форме «правильного ответа».

Пять свойств — это не пять метрик. Это пять измерений топологии, в каждом система получает не число, а профиль. Зрелая оценка — пятимерный профиль. Две системы сравниваются не «которая лучше», а «в каких измерениях каждая сильнее, и для каких задач какой профиль подходит».

Карта сложнее числа. Но она точна о том.

VII. Встреча со скептиком

Вы сейчас, скорее всего, думаете: «Понятно. Значит, бенчмарки плохие, и теперь мы будем оценивать системы на вайб-ощущениях. Кто убедительнее говорит о топологии — тот и победил.»

Нет. Я предлагаю ровно противоположное.

Числовые и аморфные счисления — два инструмента одной методологии, каждый для своего класса свойств. Линейка для линейного, топология для топологического. Термометр для температуры, спектрометр для состава. Мы не выбираем между приборами — мы используем нужный прибор для нужного свойства. И различение класса свойств — та интеллектуальная работа, которую индустрия AI сейчас не делает. Она берёт один прибор и прикладывает ко всему.

Аморфные оценки строго операционализируются. Просто иначе. Числовая оценка работает через значение: «MMLU 84.2%». Аморфная — через профиль: «по пяти осям система даёт конфигурацию X». Числовая сравнивается через разность: «+2.1%». Аморфная — через топологический диф: «в измерениях A и C сильнее, в B и E слабее, в остальных сопоставимо». Это другая операциональная грамматика, но не менее строгая.

Аморфная оценка не значит субъективная. Она значит — конфигурационная.

Если она такая строгая, скептик задаст второй вопрос: почему её до сих пор нет как стандартной практики? Ответ: она есть — в шахматах, в медицине, в инженерии ПО. AI — следующий кандидат. И конфликт здесь не методологический, а культурный: каждый раз, встречая аморфное свойство, мы либо сводим его к числу, либо сохраняем как профиль.

Каждое из этих решений — голос. Поэтому следующая глава.

VIII. Что делать в понедельник

Пять шагов. Каждый делается одним человеком в своём репозитории, без разрешения индустрии. Аморфная культура не вводится сверху — она приживается через ежедневные микро-выборы.

1. Категориальная диагностика. Понедельник, планирование спринта. Кто-то предлагает: «давайте отслеживать retrieval accuracy на held-out сете». Прежде чем записывать в тикет — один вопрос: какой класс свойства это? Линейный или топологический? Если линейный — хорошо. Если топологический — какой профиль мы хотим видеть?

Я однажды потратил шесть месяцев на оптимизацию retrieval accuracy на синтетическом датасете, пока пользователи говорили, что агент не помнит их стиль. Стиль — топологическое свойство. Retrieval accuracy — линейное. Оптимизация одного не закрывает проблему с другим. Эти шесть месяцев стоили мне больше, чем любой рефакторинг архитектуры. Тридцать секунд категориальной диагностики на каждом тикете сэкономили бы их.

Практика: в каждом тикете, предлагающем метрику, отдельная строка — «класс свойства». Тридцать секунд. Меняет тикет.

2. Операционализация аморфного. Аморфная метрика — не «ощущение». Это структурная оценка с операциональным определением. Coverage score из шести слотов. Profile diff по пяти осям. Temporal stability через N итераций.

Практика: в репозитории файл METRICS.md с двумя разделами — числовые и аморфные. Каждая аморфная метрика получает: операциональное определение, метод измерения, метод сравнения двух значений, границы применимости. Это снимает упрёк в субъективности — и заодно заставляет вас самих понять, что именно вы оцениваете.

3. Защита словаря в команде. Когда коллега говорит «это субъективно, давай возьмём что-то измеримое» — не отступайте. Спросите в ответ: «измеримое какой природы — числом или конфигурацией? и почему вы считаете, что число будет точнее, чем конфигурация?». Один вопрос. Разворачивает разговор из эмоциональной оценки («субъективно = плохо») в категориальную диагностику. Через три месяца команда начинает думать в этом словаре автоматически.

4. Профиль до конца. Когда у вас есть пятимерный профиль — не усредняйте его. Не сводите к одному числу «чтобы было удобнее сравнивать». Сложность профиля — это не недостаток оценки, это свойство оцениваемого. Радар-диаграммы и структурные сравнения в отчётах приучают аудиторию к тому, что сравнение — это разговор, а не цифра. Первые два-три раза будет сопротивление. Через пять — это становится нормой.

5. Дневник системы. Антихрупкость, миграционная устойчивость, временное наследование — производные второго порядка, проявляющиеся через тысячи итераций. Бенчмарк даёт точку. Дневник — линию. Раз в неделю снимок ключевых конфигурационных характеристик. Через полгода — траектория, по которой видно, как система эволюционирует. На этой траектории становятся видны вещи, которых нет в моментальном измерении: где система стала жёстче, где научилась прощать шум, где накопила причинные связи.

Ни один из пяти шагов не требует одобрения индустрии. Каждый делается на уровне одного инженера в своём репозитории. Так культуры и сдвигаются — не манифестами и не конференциями, а тысячами ежедневных микро-практик, которые постепенно становятся стандартом.

IX. Язык, которого ещё нет

Начинали мы с конкретной сцены. На бенчмарке Llama 4 показывает правильно — а в продакшене другая модель. На MMLU прирост 2.4% — а модель стала скучнее. Линейка работает идеально. Реальность с ней расходится.

Линейка — хороший инструмент. Она сделала возможной индустрию, которую мы имеем. Без неё мы бы сравнивали модели в разговорах, и прогресс был бы медленнее на десять лет. Всё, что я говорил в этой статье, — не про то, чтобы её отменить. Про то, чтобы признать её одним инструментом среди других, а не считать частью реальности.

Категориальная ошибка, о которой шла речь, — не в том, что мы пользуемся линейкой. Она в том, что мы забыли: линейка — одна из возможных. Мы повесили её на стену и перестали замечать, что на соседней стене могли бы висеть термометр, спектрометр, манометр, компас, карта.

Индустрия AI сейчас в состоянии кабинета с одной линейкой. Не потому что у неё нет доступа к другим инструментам. А потому что язык, на котором она говорит о качестве систем, содержит только слово «длина». Даже когда перед ней температура, даже когда давление, даже когда форма.

Язык определяет то, что мы можем подумать. То, что мы можем подумать, определяет то, что мы можем построить. Индустрия со словом «длина» строит линейные системы. Индустрия со словами «конфигурация», «топология», «профиль», «наследование», «антихрупкость» — строит системы другого класса.

Поэтому я потратил статью на разговор об одном слове. Аморфное счисление — не инструмент. Это имя для класса инструментов, которого у индустрии не было. Когда у класса появляется имя, его члены становятся мыслимыми.

У меня нет иллюзий, что одна статья изменит культуру. Культуры меняются повторением имени в разных контекстах, пока имя не входит в словарь без усилия. Если через год на Хабре появятся три-пять статей, в которых фраза «это аморфное свойство, линейкой его не ловишь» будет сказана мимоходом, без цитирования и без объяснений — статья сработала. Если нет — значит, имя не попало в резонанс, и я предложу другое.

И последнее. Я назвал это «языком, которого ещё нет». Не совсем точно. Язык есть — в шахматах, в медицине, в зрелой инженерии. Его нет в AI как институциональной нормы. Наша задача — не изобрести язык. Перенести его из областей, где он созрел, в область, которая созревает.

Перенос языка — одна из самых недооценённых интеллектуальных работ. Она не рождает новых идей. Она делает существующие идеи мыслимыми в новой области. И эта работа, повторённая многими людьми в разных текстах и разговорах, постепенно сдвигает культуры.

Если вы дочитали — вы один из тех, кто может сделать эту работу дальше. Я свою часть сделал. Ваша — в следующем code review, в следующем RFC, в следующем архитектурном обсуждении, когда вы остановитесь и спросите: «а это свойство вообще числовое или аморфное?». Один вопрос. Одна линейка снята со стены и положена на стол как один из инструментов, а не как мера всех вещей.

Если вы уже ловили себя на том, что оцениваете систему через конфигурацию, а не через число — напишите, где именно. В code review? В оценке команды? В диагностике клиентской системы? Каждая такая сцена делает аморфную культуру на одну сцену ближе к тому, чтобы стать нормой.

Этого достаточно.

Д. Бусыгин, май 2026.

Если тема отозвалась — я открыт к разговору.

Telegram: @СС373737

github.com/DenAB-NVS/submarine — проект на GitHub не раскрывает всего потенциала существующей работы, но даёт общий контур и будет полезен молодым разработчикам.

Автор: denis_busygin

Источник

Информация

Комментарии

Рекомендуем