Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут.
Я представился в первом сообщении. Двести сообщений назад...
Агент забыл. Не потому что тупой. Потому что контекст переполнился и начало разговора уехало в никуда.
Это был момент, когда я понял: мы неправильно думаем о памяти.
Почему большие контексты — это ловушка
Когда вышел Claude с контекстом на миллион токенов, казалось — проблема решена. Запихиваем всё в контекст, модель помнит всё. Красота.
Потом пришёл счёт за API.



