Рубрика «обучение с подкреплением» - 4

Что не так с обучением с подкреплением (Reinforcement Learning)?

2019-01-21 в 23:25, admin, рубрики: reinforcement learning, искусственный интеллект, машинное обучение, нейронные сети, обучение с подкреплением

Что не так с обучением с подкреплением (Reinforcement Learning)? - 1

Еще в начале 2018 года вышла статья Deep Reinforcement Learning Doesn't Work Yet ("Обучение с подкреплением пока не работает"). Основная претензия которой сводилась к тому, что современные алгоритмы обучения с подкреплением требуют для решения задачи примерно столько же времени, как и обычный случайный поиск.

Изменилось ли что-то с того времени? Нет.

Обучение с подкреплением считается одним из трех основных путей к созданию сильного ИИ. Но трудности, с которыми сталкивается эта область машинного обучения, и методы, которыми ученые пытаются бороться с этими трудностями, наводят на мысль что, возможно, с самим этим подходом имеются фундаментальные проблемы.

Читать полностью »

Улучшение агента на основе Q-Learning, торгующего stocks, путем добавления рекуррентности и формирования наград

2019-01-18 в 12:26, admin, рубрики: R, машинное обучение, обучение с подкреплением

Напоминание

Привет! Предлагаю вашему вниманию ещё один перевод моей новой статьи с медиума.

В прошлый раз (первая статья) (Habr) мы создали агента на технологии Q-Learning, который совершает сделки на имитированных и реальных биржевых временных рядах и пытались проверить, подходит ли эта область задач для обучения с подкреплением.

В этот раз мы добавим LSTM слой для учета временных зависимостей внутри траектории и сделаем инженерию наград (reward shaping) на основе презентаций.

Читать полностью »

Как учиться с помощью машинного обучения у экспертов в Dota 2

2019-01-10 в 13:00, admin, рубрики: hse, jetbrains, jetbrains research, Алгоритмы, Блог компании Питерская Вышка, демонстрации, искусственный интеллект, машинное обучение, обучение с подкреплением, питерская вышка, Учебный процесс в IT

В предыдущей статье от Питерской Вышки мы показывали, как при помощи машинного обучения можно искать баги в программном коде. В этом посте расскажем о том, как мы вместе с JetBrains Research пытаемся использовать один из самых интересных, современных и быстроразвивающихся разделов машинного обучения — обучение с подкреплением — как в реальных практических задачах, так и на модельных примерах.

Как учиться с помощью машинного обучения у экспертов в Dota 2 - 1

Читать полностью »

Обучение с подкреплением на языке Python

2018-12-28 в 14:30, admin, рубрики: OpenAI Gym, python, RL, Алгоритмы, Блог компании Издательский дом «Питер», глубокое обучение, книги, машинное обучение, обучение с подкреплением, Профессиональная литература

Привет, коллеги!

Обучение с подкреплением на языке Python - 1

В последней публикации уходящего года мы хотели упомянуть о Reinforcement Learning — теме, книгу на которую мы уже переводим.

Посудите сами: нашлась элементарная статья с Medium, в которой изложен контекст проблемы, описан простейший алгоритм с реализацией на Python. В статье есть несколько гифок. А мотивация, вознаграждение и выбор правильной стратегии на пути к успеху — это вещи, которые исключительно пригодятся в наступающем году каждому из нас.

Приятного чтения!
Читать полностью »

Можно ли обучить с подкреплением агента для торговли на рынке акций? Реализация на языке R

2018-12-14 в 14:59, admin, рубрики: R, машинное обучение, обучение с подкреплением

Давайте создадим прототип агента обучения с подкреплением (RL), который овладеет навыком трейдинга.

Учитывая, что реализация прототипа работает на языке R, я призываю пользователей и программистов R приблизиться к идеям, изложенным в этом материале.

Это перевод моей англоязычной статьи: Can Reinforcement Learning Trade Stock? Implementation in R.

Хочу предупредить код-хантеров, что в этой заметке есть только код нейронной сети, адаптированной под R.

Если я не отличился хорошим русским языком, укажите на ошибки (текст готовился с подмогой автоматического переводчика).

Читать полностью »

Учим агента играть в Mario Kart с помощью фильтров

2018-11-12 в 9:44, admin, рубрики: Блог компании Smile-Expo, игровой ии, искусственный интеллект, машинное обучение, обучение нейронных сетей, обучение с подкреплением, смайл экспо

Владимир Иванов vivanov879, Sr. Deep Learning Engineer в NVIDIA, продолжает рассказывать про обучение с подкреплением. В этой статье речь пойдет про обучение агента для прохождения квестов и о том, как нейросети используют фильтры для распознавания изображений.

В предыдущей статье разбиралось обучение агента для простых стрелялок.

Про применение обучения с подкреплением на практике Владимир будет рассказывать на AI Conference 22 ноября.Читать полностью »

Обучение с подкреплением в среде PyBullet

2018-08-22 в 17:41, admin, рубрики: PyBullet, машинное обучение, обучение с подкреплением, симуляция физики

Многие, кто изучает машинное обучение, знакомы с проектом OpenAI, одним из основателей которого является Илон Маск, и используют в качестве среды для тренировки своих моделей нейронных сетей платформу OpenAI Gym.

Gym содержит огромный набор окружений, часть из них — различного рода физические симуляции: движения животных, человека, роботов. Данные симуляции основаны на физическом движке MuJoCo, который является бесплатным для образовательных и научных целей.

В данной статье мы создадим предельно простую физическую симуляцию подобную окружению OpenAI Gym, но основанную на свободном физическом движке Bullet(PyBullet). А так же создадим агента для работы с этим окружением.
Читать полностью »

Логарифмируй это: метод логарифмической производной в машинном обучении

2017-08-21 в 13:06, admin, рубрики: wunder fund, wunderfund, Алгоритмы, Блог компании Wunder Fund, вариационное исчисление, математика, машинное обучение, монте-карло, обучение с подкреплением, стохастическая оптимизация

Прием, о котором пойдет речь — метод логарифмической производной — помогает нам делать всякие штуки, используя основное свойство производной от логарифма. Лучше всего этот метод зарекомендовал себя в решении задач стохастической оптимизации, которые мы исследовали ранее. Благодаря его применению, мы нашли новый способ получения стохастических градиентных оценок. Начнем с примера использования приема для определения оценочной функции.

Довольно математично.
Читать полностью »

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

2017-06-06 в 11:38, admin, рубрики: reinforcement learning, Алгоритмы, машинное обучение, обработка изображений, обучение с подкреплением, оптимизация, эволюционный алгоритм, метки: reinforcement learning

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением - 1 Изложение статьи от том, что давно известные эволюционные стратегии оптимизации могут превзойти алгоритмы обучения с подкреплением.
Преимущества эволюционных стратегий:

Простота реализации
Не требуется обратного распространения
Легко масштабируется в распределенной среде вычислений
Малое число гиперпараметров.

Читать полностью »

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта

2017-01-22 в 10:41, admin, рубрики: Google Brain, reinforcement learning, будущее здесь, глубокое обучение, ИИ, искусственный интеллект, машинное зрение, мозг, научная фантастика, нейросети, обучение с подкреплением, Сингулярность, Софт

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта - 1
По Курцвейлу, логарифмическая шкала смены парадигм для ключевых исторических событий проявляет экспоненциальную тенденцию

Ключевой элемент для возникновения технологической сингулярности — запуск некотролируемого цикла самосовершенствования ИИ, где каждое новое более умное поколение ИИ будет появляться быстрее предыдущего. Согласно теории сингулярности по Вернору Винджу, в результате взрывного развития интеллекта в цикле экспоненциального самосовершенствования появится сверхинтеллект, который намного превзойдёт возможности человеческого разума и по сути будет непонятен для него. Называются разные примерные даты наступления сингулярности, исходя из экстраполяции технологического прогресса. Рей Курцвейл считает, что это произойдёт примерно в 2045 году (хотя он не считает обязательным экспоненциальное самосовершенствование ИИ), а среднее медианное значение по опросу экспертов по сильному ИИ — 2040 год.

Вполне возможно, что сингулярность наступит раньше прогнозируемого. Инженеры из компании Google и разработчики систем ИИ из других компаний сообщают об успехах, которых удалось добиться в ключевом направлении — создании систем ИИ, предназначенных для проектирования других систем ИИ.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «обучение с подкреплением» - 4

Что не так с обучением с подкреплением (Reinforcement Learning)?

Улучшение агента на основе Q-Learning, торгующего stocks, путем добавления рекуррентности и формирования наград

Напоминание

Как учиться с помощью машинного обучения у экспертов в Dota 2

Обучение с подкреплением на языке Python

Можно ли обучить с подкреплением агента для торговли на рынке акций? Реализация на языке R

Учим агента играть в Mario Kart с помощью фильтров

Обучение с подкреплением в среде PyBullet

Логарифмируй это: метод логарифмической производной в машинном обучении

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта