Современные LLM принципиально не могут иметь сущность. И причина не в несовершенстве архитектуры. Причина в способе обучения.

Современные LLM принципиально не могут иметь сущность. И причина не в несовершенстве архитектуры. Причина в способе обучения.

Привет!
Меня зовут Евгений Пантелеев. Я занимаюсь аналитикой в Авито Авто в сегменте Resellers.
В этой статье я расскажу о том, как мне удалось усилить CUPED довольно простой механикой и довести результат до статзначимости с помощью пост-стратификации в продолжительном эксперименте.
Также попробуем разобраться почему многие аналитики на практике пренебрегают пост-стратификацией, считая, что мощный CUPED дает повышение чувствительности эксперимента близкое к максимальному.
Одно любопытное исследование опубликовала некоммерческая организация Model Evaluation and Threat Research (METR). Они пригласили 16 опытных разработчиков, работающих над крупными open-source репозиториями, чтобы те исправили 136 реальных багов. Оплата составила 150 долларов в час. Части разработчиков выдали для работы AI-инструменты, другим — нет. Исследователи записывали экраны участников, а затем изучили и проанализировали 146 часов видеозаписей. Вывод оказался следующим:
Привет! Меня зовут Сергей и я фронтенд-разработчик. Уже несколько лет я использую React как основную библиотеку. Связка React + MUI + Styled Components (MUI-версия) + Storybook + Playwright. Стейт-менеджеры не использую, поскольку они избыточны в большинстве случаев, и достаточно грамотного использования контекста.
Я очень неплохо умею пользоваться React, поэтому имею право его очень сильно недолюбливать.
Еще вчера фотография была «доказательством» того, что событие произошло. Сегодня любой школьник может сгенерировать или изменить изображение до неузнаваемости с помощью ИИ. Индустрия цифровой-криминалистики пытается угнаться за технологиями, разрабатывая все новые детекторы фальсификаций. Но что, если подойти к проблеме с другой стороны? Не искать следы конкретного алгоритма генерации, а задать более фундаментальный вопрос: насколько естественны статистические свойства этого изображения?
Обычно SQL используют ради отчётов, аналитики и унылого «выгрузить за вчера». Но у языка запросов есть и другая, неожиданная сторона: если относиться к нему как к инструменту для сочинительства, можно попробовать написать рассказ. Сюжет, герои, диалоги — всё это вполне собирается на голом SQL. В статье я делюсь экспериментом, который начался ради шутки, а закончился странным ощущением, что база данных умеет рассказывать истории.
Два месяца назад я решил провести эксперимент: написать книгу с помощью бесплатных нейросетей. Книга была моей давней мечтой, на которую всегда не хватало времени, а порой и силы воли. Чат-бот должен был не только помочь мне продвинуться, но и добавить интриги: по задумке роман представлял собой исповедь ИИ, поэтому всё можно было подать так, будто чат-бота долго мучали и он проговорился на целую книгу.
Как получилось, что в итоге не чат-боты помогали мне писать, а скорее я превратился в скромного соавтора, и какие выводы можно сделать после работы с четырьмя моделями одновременно — рассказываю в статье.
Если хочешь навести порядок в шуме — сначала разберись, не затёр ли ты в нём сам сигнал.

В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал правила, попался в ловушку и полностью провалил тест.
Ни один из них не справился с задачей в полной мере. Теперь на сцену выходит третий участник — Gemini 2.5 Pro. Его путь оказался самым извилистым, поучительным и заставил нас по-новому взглянуть на саму суть эксперимента.