Рубрика «карпаты»

Это перевод оригинальной статьи Андрея Карпатого.

2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неожиданных «смен парадигм». Вещи, которые изменили ландшафт и концептуально запомнились.

1. Reinforcement Learning from Verifiable Rewards (RLVR)

В начале 2025 года стек производства LLM во всех лабораториях выглядел примерно так:

  • Претрейнинг (GPT-2/3, ~2020)

  • Supervised Finetuning (InstructGPT, ~2022)

  • RLHF — обучение с подкреплением на основе человеческой обратной связи (~2022)

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js