Рубрика «RL»

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.Читать полностью »

Генератор SQL на базе LLM — понятный продукт с понятной ценностью. Он может быть отдельной платформой или инструментом для агента, решающего более общую задачу. Генерировать код модели с попеременным успехом, к счастью, умеют. 

И что же? Берем API с моделью помощнее, даем ей доступ к БД, задаем вопрос, смотрим на результат, и всё — полноценная замена аналитику? Конечно, нет, ведь аналитик делает гораздо больше, чем просто пишет и исполняет SQL. 

Однако давайте остановимся на SQL и посмотрим, почему это тоже не так просто:

  1. Читать полностью »

Привет!
Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.

TL;DR

Авторы предлагают простой, но мощный метод: если первая попытка модели провалилась, она должна написать краткую саморефлексию, а затем сделать повторную попытку. Если она успешна — награду получают только токены саморефлексии.

Читать полностью »

В этой статье я планирую исследовать, как можно использовать большие языковые модели (LLM) для миграции проектов между различными фреймворками. Применение LLM в задачах на уровне репозитория — это развивающаяся и всё более популярная область. Миграция кода со старых, устаревших фреймворков на новые является одной из ключевых задач в крупных корпоративных проектах.

Актуальность

Читать полностью »

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир - 1

Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience"Читать полностью »

Привет, коллеги!

Обучение с подкреплением на языке Python - 1

В последней публикации уходящего года мы хотели упомянуть о Reinforcement Learning — теме, книгу на которую мы уже переводим.

Посудите сами: нашлась элементарная статья с Medium, в которой изложен контекст проблемы, описан простейший алгоритм с реализацией на Python. В статье есть несколько гифок. А мотивация, вознаграждение и выбор правильной стратегии на пути к успеху — это вещи, которые исключительно пригодятся в наступающем году каждому из нас.

Приятного чтения!
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js