Рубрика «обучение с подкреплением» - 3

Логарифмируй это: метод логарифмической производной в машинном обучении - 1

Прием, о котором пойдет речь — метод логарифмической производной — помогает нам делать всякие штуки, используя основное свойство производной от логарифма. Лучше всего этот метод зарекомендовал себя в решении задач стохастической оптимизации, которые мы исследовали ранее. Благодаря его применению, мы нашли новый способ получения стохастических градиентных оценок. Начнем с примера использования приема для определения оценочной функции.

Довольно математично.
Читать полностью »

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением - 1Изложение статьи от том, что давно известные эволюционные стратегии оптимизации могут превзойти алгоритмы обучения с подкреплением.
Преимущества эволюционных стратегий:

  • Простота реализации
  • Не требуется обратного распространения
  • Легко масштабируется в распределенной среде вычислений
  • Малое число гиперпараметров.

Читать полностью »

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта - 1
По Курцвейлу, логарифмическая шкала смены парадигм для ключевых исторических событий проявляет экспоненциальную тенденцию

Ключевой элемент для возникновения технологической сингулярности — запуск некотролируемого цикла самосовершенствования ИИ, где каждое новое более умное поколение ИИ будет появляться быстрее предыдущего. Согласно теории сингулярности по Вернору Винджу, в результате взрывного развития интеллекта в цикле экспоненциального самосовершенствования появится сверхинтеллект, который намного превзойдёт возможности человеческого разума и по сути будет непонятен для него. Называются разные примерные даты наступления сингулярности, исходя из экстраполяции технологического прогресса. Рей Курцвейл считает, что это произойдёт примерно в 2045 году (хотя он не считает обязательным экспоненциальное самосовершенствование ИИ), а среднее медианное значение по опросу экспертов по сильному ИИ — 2040 год.

Вполне возможно, что сингулярность наступит раньше прогнозируемого. Инженеры из компании Google и разработчики систем ИИ из других компаний сообщают об успехах, которых удалось добиться в ключевом направлении — создании систем ИИ, предназначенных для проектирования других систем ИИ.
Читать полностью »

Нейросетка играет в Доту - 1

Всем привет! На самом деле нейросетка играет не в привычную Dota 2, а в RussianAICup 2016 CodeWizards. RussianAICup — это ежегодное открытое соревнование по программированию искусственного интеллекта. Участвовать в этом соревновании довольно интересно. В этом году темой была игра похожая на Доту. Так как я уже какое-то время занимаюсь обучением с подкреплением, то мне хотелось попробовать применить это в RussianAICup. Главной целью было научить нейронную сеть играть в эту игру, хотя занятие призового места — это, конечно, было бы приятно. В итоге нейросеть держится в районе 700 места. Что, я считаю, неплохо, ввиду ограничений соревнования. В этой статье речь пойдет скорее об обучении с подкреплением и алгоритмах DDPG и DQN, а не о самом соревновании.
Читать полностью »

Сбор данных Atari 2600 для обучения с подкреплением - 1
Сайт atarigrandchallenge.com, предназначенный для сбора данных

Всем привет! “Искусственный интеллект победил человека в Го”, “Искусственный интеллект играет в Atari 2600 лучше чем человек”, “Компьютерные боты приблизились по уровню игры в Doom к человеческим игрокам” —  последнее время таких заголовков становится всё больше и больше. Появляются многочисленные среды для разработки и тестирования алгоритмов обучения с подкреплением (Reinforcement Learning): OpenAI Universe, Microsoft Minecraft Malmo, DeepMind SCII. И кто знает, что будет завтра?

Для своей магистерской работы я хочу собрать коллекцию реплеев игр для Atari 2600, сыгранных людьми. В дальнейшем я использую ее для обучения ботов и выложу все собранные данные в открытый доступ, чтобы все желающие могли использовать их для своих исследований.
Читать полностью »

OpenAI Universe. Открытая платформа для тренировки сильного ИИ - 1
Набор задач для обучения с подкреплением сильного ИИ в рамках универсальной платформы OpenAI

Основанная Илоном Маском и соратниками некоммерческая организация OpenAI, которая ставит целью создание безопасного (то есть общедоступного и открытого) искусственного интеллекта, сделала очередной шаг для осуществления своих планов. OpenAI представила связующее программное обеспечение Universe для тренировки и обучения сильного ИИ. Теоретически, обучение может происходить на всей информации человечества, доступной через интернет. Это игры, веб-сайты и прочие приложения.

Всего девять строчек кода — и вашему ИИ доступны тысячи окружений для тренировки.
Читать полностью »

Всем привет!

Сегодня речь пойдет о состязании, в области машинного обучения, BlackBox Challenge, а также о самом черном ящике, механизмах его работы, изменения состояний, начисления вознаграждений и конечно о том, что же там внутри.
Чуть ниже я опубликую решение, входящее, на момент публикации, в 5-ку лучших.
Уверен оно поможет другим участникам улучшить свои результаты, а возможно и отыскать новый подход.

BlackBox Challenge: Что внутри черного ящика? - 1
Читать полностью »

imageFanuc — крупнейший в мире производитель промышленных роботов, которые используют обучение с подкреплением, чтобы самостоятельно выяснить, как выполнять поставленные перед ними задачи.

В Токио, внутри скромного на вид офисного здания, живет необыкновенно умный промышленный робот, разработанный японской компанией Fanuc. Дайте ему задачу: взять виджеты из одной коробки и положить их в другую, и он будет всю ночь пытаться понять, как это сделать. Утром машина уже освоит эту работу, точно также, как если бы была запрограммирована специалистом, сообщает technologyreview.
Читать полностью »

Запущен свободный проект GNU Gneural Network - 1

Нейросети и системы искусственного интеллекта — горячая тема исследований в наши дни. К сожалению, эти исследования часто ведутся в недрах коммерческих компаний, таких как Google и IBM, и закрыты от публики. Чтобы исправить ситуацию, нужно вести исследования открыто, считают энтузиасты из Фонда свободного ПО, которые запустили инициативу GNU Gneural Network.

Пакет Gneural Network представляет собой программируемую нейросеть. В текущей версии 0.0.1 это довольно простая сеть прямого распространения, которая выполняет простые задачи вроде подбора формул — построения кривых по набору значений, но очень скоро разработчики планируют значительно расширить функциональность. Прямо сейчас идёт работа над реализацией архитектуры LSTM (long short term memory) для рекуррентной нейросети и глубинного обучения. Есть также планы по реализации обучения с подкреплением.
Читать полностью »

КПДВ. В Karpathy game играет нейронная сеть

Всем привет!
Я думаю, что многие слышали о Google DeepMind. О том как они обучают программы играть в игры Atari лучше человека. Сегодня я хочу представить вам статью о том, как сделать нечто подобное. Данная статья — это обзор идеи и кода примера применения Q-learning, являющегося частным случаем обучения с подкреплением. Пример основан на статье сотрудников Google DeepMind.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js