Рубрика «reinforcement learning»

RL (RLM): Разбираемся вместе

2025-10-19 в 20:24, admin, рубрики: llm, PPO, Proxi, reinforcement learning, RL, RLHF, Алгоритмы, большие языковые модели, искуственный интеллект, машинное обучение

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.Читать полностью »

Intro Reinforcement Learning

2025-10-15 в 14:51, admin, рубрики: Bellman equation, ml, NeuralNetworks, Policy Iteration, reinforcement learning, обучение с подкреплением

Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.

¯_(ツ)_/¯

Полезные ссылки:
Practical RL (ШАД) (самые полезные материалы были тут)
Лекция №15 "Обучение с подкреплением"
Тренировки. Лекция 3: Введение в обучение с подкреплением
Читать полностью »

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

2025-09-25 в 11:10, admin, рубрики: IoT security, IoT-устройства, NB-IoT, reinforcement learning, беспроводные сети, Беспроводные технологии, Интернет вещей, машинное обучение, обучение с подкреплением

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым.

Читать полностью »

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

2025-08-11 в 9:30, admin, рубрики: llm, ml, nlp, reinforcement learning, RL, машинное обучение

Привет!
Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.

TL;DR

Авторы предлагают простой, но мощный метод: если первая попытка модели провалилась, она должна написать краткую саморефлексию, а затем сделать повторную попытку. Если она успешна — награду получают только токены саморефлексии.

Читать полностью »

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

2025-08-01 в 12:48, admin, рубрики: ab-mcts, AI, inference, llm, monte carlo tree search, reasoning, reinforcement learning, thompson sampling

Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз Читать полностью »

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

2025-07-24 в 21:44, admin, рубрики: AI, alignment, deep learning, jailbreak, large language models, machine learning, multi-agent systems, prompt engineering, rag, reinforcement learning

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

Читать полностью »

LiberalMind 1.5 новая LLM из России

2025-07-23 в 12:15, admin, рубрики: AI, Fine-tuning, llm, llm-модели, lora-адаптеры, ml, reinforcement learning, искусственный интеллект, машинное обучение, языковые модели

С чего все начиналось?

Читать полностью »

ИИ простыми словами, часть 2. Reinforcement Learning (RL)

2025-02-06 в 16:18, admin, рубрики: deepseek, reinforcement learning, ИИ, искусственный интеллект

Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.

Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу на Хабр или куда-то ещё, для сложных терминов я сразу мог бы дать ссылку на понятное и простое объяснение.

Читать полностью »

ИИ на путях: как решить задачу перепланирования расписания движения поездов

2025-01-23 в 15:30, admin, рубрики: artificial intelligence, machine learning, reinforcement learning, жд, ИИ, искусственный интеллект, машинное обучение, обучение с подкреплением

Привет. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее.

В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи:

Перепланирование расписания движения поездов (Train Timetable Rescheduling)
Коротко об RL и Q-learning
Моделирование железнодорожной средыЧитать полностью »

Практическое обучение с подкреплением: от забав с MuJoCo’м до битв на арене

2025-01-15 в 16:19, admin, рубрики: jax, machine learning, MuJoCo, reinforcement learning, SAC, The MuJoCo Men, машинное обучение, обучение с подкреплением

Добрый день, уважаемыее!

Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время.

В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении!

Готовы? Тогда - вперед!

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «reinforcement learning»

RL (RLM): Разбираемся вместе

Intro Reinforcement Learning

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

TL;DR

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

LiberalMind 1.5 новая LLM из России

С чего все начиналось?

ИИ простыми словами, часть 2. Reinforcement Learning (RL)

ИИ на путях: как решить задачу перепланирования расписания движения поездов

Практическое обучение с подкреплением: от забав с MuJoCo’м до битв на арене