Рубрика «обучение с подкреплением»

Для меня разобраться в базовых концепциях Reinforcement Learning оказалось не так просто, особенно сложными оказались функции Беллмана. Эта статья — моя попытка систематизировать материал и объяснить себе (и, возможно, другим), что, откуда и почему берется. Будет здорово, если она поможет кому-то разложить все по полочкам.

¯_(ツ)_/¯

Полезные ссылки:
Practical RL (ШАД) (самые полезные материалы были тут)
Лекция №15 "Обучение с подкреплением"
Тренировки. Лекция 3: Введение в обучение с подкреплением
Читать полностью »

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым.

Читать полностью »

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью   взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов.   Мультиагентное обучение на основе мутаций, скрещивания и эволюции,  Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир - 1

Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience"Читать полностью »

вкалывают роботы

вкалывают роботы...

Немного контекста

Подходит к завершению серия моих заметок про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP). Я последовательно разобрал некоторые классические решения TSP и далее рассказалЧитать полностью »

Обучение робота

Обучение робота

Читать полностью »

Привет. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее.

В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи:

  1. Перепланирование расписания движения поездов (Train Timetable Rescheduling)

  2. Коротко об RL и Q-learning

  3. Моделирование железнодорожной средыЧитать полностью »

Говорят, человеческое внимание ходит по треугольнику на картине великого голландца

Говорят, человеческое внимание ходит по треугольнику на картине великого голландца

Где начинается ИИ в задаче коммивояжера?

Заголовок отсылает к знаменитой работе Attention Is All You NeedЧитать полностью »

Добрый день, уважаемыее!

Я хочу поделиться с вами очень интересным проектом, над которым работал в последнее время.

В первой статье я не буду сильно углубляться в технические подробности, а вместо этого постараюсь провести вас по пути, который я прошел при реализации своего пайплайна для обучения нейросеток, сражающихся друг с другом на арене. Весь код доступен на моем GitHub и готов к использованию, поэтому вы сразу сможете обучить чемпиона и поучаствовать в сражении!

Готовы? Тогда - вперед!

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js