Рубрика «обучение с подкреплением»

Обучение ИИ в 2026 году: Как обучаются современные модели?

2026-01-24 в 14:21, admin, рубрики: AI, ИИ, машинное обучение, нейросеть, обучение без учителя, обучение с подкреплением, обучение с учителем, самообучение

Доброго времени суток, «Хабр»!

Вы когда-нибудь задумывались, что такое машинное обучение и как оно вообще учится? Чем это может отличаться от обычного программирования с его главным правилом: не трогай, пока работает? Где заканчивается простой код и где он переходит во что-то более мощное - в ИИ-модели, которые мы используем сегодня.

Сегодня мы разберем основы ИИ - обучение моделей. Посмотрим какие способы обучения бывают, зачем их применяют и как они показывают, на что модель способна.

Принимайте стратегически удобное положение, ну а я перехожу к своему повествованию.

Читать полностью »

Intro Reinforcement Learning

2025-10-15 в 14:51, admin, рубрики: Bellman equation, ml, NeuralNetworks, Policy Iteration, reinforcement learning, обучение с подкреплением

Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.

¯_(ツ)_/¯

Полезные ссылки:
Practical RL (ШАД) (самые полезные материалы были тут)
Лекция №15 "Обучение с подкреплением"
Тренировки. Лекция 3: Введение в обучение с подкреплением
Читать полностью »

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

2025-09-25 в 11:10, admin, рубрики: IoT security, IoT-устройства, NB-IoT, reinforcement learning, беспроводные сети, Беспроводные технологии, Интернет вещей, машинное обучение, обучение с подкреплением

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым.

Читать полностью »

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

2025-06-25 в 13:12, admin, рубрики: AGI, MADDPG, глубокое обучение, Дарвин-Гёдель машина, демография, искуственный интеллект, миграция, мультиагентные системы, обучение с подкреплением

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов. Мультиагентное обучение на основе мутаций, скрещивания и эволюции, Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

Читать полностью »

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

2025-05-07 в 10:40, admin, рубрики: RL, данные, ИИ, обучение с подкреплением

Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience"Читать полностью »

Глубокое Q-обучение (DQN)

2025-05-03 в 16:11, admin, рубрики: DQN, TSP, задача коммивояжёра, искусственный интеллект, обучение с подкреплением

Немного контекста

Подходит к завершению серия моих заметок про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP). Я последовательно разобрал некоторые классические решения TSP и далее рассказал Читать полностью »

Разработка библиотеки для навигации групп мобильных роботов на транспортной платформе в заранее неизвестной среде

2025-02-18 в 13:15, admin, рубрики: нейронные сети, обучение с подкреплением, сверточные нейронные сети

Читать полностью »

Как мы обучили беспилотники в симуляции для гонок в смешанной реальности

2025-01-24 в 8:42, admin, рубрики: беспилотники, беспилотный автомобиль, искусственный интеллект, обучение с подкреплением

Читать полностью »

ИИ на путях: как решить задачу перепланирования расписания движения поездов

2025-01-23 в 15:30, admin, рубрики: artificial intelligence, machine learning, reinforcement learning, жд, ИИ, искусственный интеллект, машинное обучение, обучение с подкреплением

Привет. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее.

В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи:

Перепланирование расписания движения поездов (Train Timetable Rescheduling)
Коротко об RL и Q-learning
Моделирование железнодорожной средыЧитать полностью »

Внимание — это все, что нужно коммивояжеру

2025-01-17 в 8:45, admin, рубрики: Pointer Network, TSP, задача коммивояжёра, искусственный интеллект, механизм внимания, обучение с подкреплением

Говорят, человеческое внимание ходит по треугольнику на картине великого голландца

Где начинается ИИ в задаче коммивояжера?

Заголовок отсылает к знаменитой работе Attention Is All You Need Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «обучение с подкреплением»

Обучение ИИ в 2026 году: Как обучаются современные модели?

Intro Reinforcement Learning

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

Глубокое Q-обучение (DQN)

Немного контекста

Разработка библиотеки для навигации групп мобильных роботов на транспортной платформе в заранее неизвестной среде

Как мы обучили беспилотники в симуляции для гонок в смешанной реальности

ИИ на путях: как решить задачу перепланирования расписания движения поездов

Внимание — это все, что нужно коммивояжеру

Где начинается ИИ в задаче коммивояжера?