Это перевод оригинальной статьи Андрея Карпатого.
2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неожиданных «смен парадигм». Вещи, которые изменили ландшафт и концептуально запомнились.
1. Reinforcement Learning from Verifiable Rewards (RLVR)
В начале 2025 года стек производства LLM во всех лабораториях выглядел примерно так:
-
Претрейнинг (GPT-2/3, ~2020)
-
Supervised Finetuning (InstructGPT, ~2022)
-
RLHF — обучение с подкреплением на основе человеческой обратной связи (~2022)




