Главная

Рубрика «PPO»

RL (RLM): Разбираемся вместе

2025-10-19 в 20:24, admin, рубрики: llm, PPO, Proxi, reinforcement learning, RL, RLHF, Алгоритмы, большие языковые модели, искуственный интеллект, машинное обучение

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.Читать полностью »

Заметки фитохимика. Закат эпохи хабра-банана

2019-01-20 в 10:37, admin, рубрики: AnaPen, Blood-brain barrier, EpiPen, FOSHU, L-DOPA, Musa acuminata, Musa balbisiana, Musa paradisiaca, Nai Khanom Thom, PPO, Windup Girl, адреналин, анафилактический шок, антацид, антигистаминный препарат, Б. Болотов, банан, Биотехнологии, боксерская ночь, водку закусить бананом, гематоэнцефалический барьер, гибрид, дельфин из банана, Денис Гончаренок, дофамин, Заводная, заметки фитохимика, Здоровье гика, клуай тани, Лайфхаки для гиков, леводопа, муай тай, Най Кхам Том, Нанг Тани, Научно-популярное, норадреналин, Паоло Бачигалупи, полифенолоксидаза, происхождение банана, противоязвенный препарат, Пружинщица, серотонин, тирамин, тирозин, триптофан, фитостерины, фитостеролы, фитохимия, фосфатидилхолин, фосфатидилэтаноламин, Фосфолипид, фрукт Евы, фрукты в Unicode, функциональные продукты, химия, холестерин

Anfangen ist leicht, Beharren eine Kunst (Начинать — легко, продолжать — искусство)
Немецкая пословица

Думаю, тема банана уважаемым хабра-читателям уже порядком поднадоела. Пора бы с одной стороны закончить наконец с этим бананом, да написать про какой-нибудь чеснок. Но что поделать, ситуация как в том анекдоте про "мыши кололись, плакали, но все равно жрали кактус", ведь с бананом мы еще не закончили. Поэтому, чтобы наконец замкнуть круг и узнать про связь банана и тайского бокса, про адреналин из банана, и про то, почему закусывать нужно бананом, а не лимоном ~~и про дельфинчиков из банана~~ — следуем под кат!

Заметки фитохимика. Закат эпохи хабра-банана - 1

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «PPO»

RL (RLM): Разбираемся вместе

Заметки фитохимика. Закат эпохи хабра-банана