Рубрика «обучение с подкреплением» - 3

Логарифмируй это: метод логарифмической производной в машинном обучении

2017-08-21 в 13:06, admin, рубрики: wunder fund, wunderfund, Алгоритмы, Блог компании Wunder Fund, вариационное исчисление, математика, машинное обучение, монте-карло, обучение с подкреплением, стохастическая оптимизация

Прием, о котором пойдет речь — метод логарифмической производной — помогает нам делать всякие штуки, используя основное свойство производной от логарифма. Лучше всего этот метод зарекомендовал себя в решении задач стохастической оптимизации, которые мы исследовали ранее. Благодаря его применению, мы нашли новый способ получения стохастических градиентных оценок. Начнем с примера использования приема для определения оценочной функции.

Довольно математично.
Читать полностью »

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

2017-06-06 в 11:38, admin, рубрики: reinforcement learning, Алгоритмы, машинное обучение, обработка изображений, обучение с подкреплением, оптимизация, эволюционный алгоритм, метки: reinforcement learning

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением - 1 Изложение статьи от том, что давно известные эволюционные стратегии оптимизации могут превзойти алгоритмы обучения с подкреплением.
Преимущества эволюционных стратегий:

Простота реализации
Не требуется обратного распространения
Легко масштабируется в распределенной среде вычислений
Малое число гиперпараметров.

Читать полностью »

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта

2017-01-22 в 10:41, admin, рубрики: Google Brain, reinforcement learning, будущее здесь, глубокое обучение, ИИ, искусственный интеллект, машинное зрение, мозг, научная фантастика, нейросети, обучение с подкреплением, Сингулярность, Софт

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта - 1
По Курцвейлу, логарифмическая шкала смены парадигм для ключевых исторических событий проявляет экспоненциальную тенденцию

Ключевой элемент для возникновения технологической сингулярности — запуск некотролируемого цикла самосовершенствования ИИ, где каждое новое более умное поколение ИИ будет появляться быстрее предыдущего. Согласно теории сингулярности по Вернору Винджу, в результате взрывного развития интеллекта в цикле экспоненциального самосовершенствования появится сверхинтеллект, который намного превзойдёт возможности человеческого разума и по сути будет непонятен для него. Называются разные примерные даты наступления сингулярности, исходя из экстраполяции технологического прогресса. Рей Курцвейл считает, что это произойдёт примерно в 2045 году (хотя он не считает обязательным экспоненциальное самосовершенствование ИИ), а среднее медианное значение по опросу экспертов по сильному ИИ — 2040 год.

Вполне возможно, что сингулярность наступит раньше прогнозируемого. Инженеры из компании Google и разработчики систем ИИ из других компаний сообщают об успехах, которых удалось добиться в ключевом направлении — создании систем ИИ, предназначенных для проектирования других систем ИИ.
Читать полностью »

Нейросетка играет в Доту

2017-01-15 в 22:52, admin, рубрики: c++, deep learning, reinforcement learning, TensorFlow, Алгоритмы, ИНС, искусственный интеллект, машинное обучение, нейронные сети, обучение с подкреплением, Программирование, Разработка робототехники

Нейросетка играет в Доту - 1

Всем привет! На самом деле нейросетка играет не в привычную Dota 2, а в RussianAICup 2016 CodeWizards. RussianAICup — это ежегодное открытое соревнование по программированию искусственного интеллекта. Участвовать в этом соревновании довольно интересно. В этом году темой была игра похожая на Доту. Так как я уже какое-то время занимаюсь обучением с подкреплением, то мне хотелось попробовать применить это в RussianAICup. Главной целью было научить нейронную сеть играть в эту игру, хотя занятие призового места — это, конечно, было бы приятно. В итоге нейросеть держится в районе 700 места. Что, я считаю, неплохо, ввиду ограничений соревнования. В этой статье речь пойдет скорее об обучении с подкреплением и алгоритмах DDPG и DQN, а не о самом соревновании.
Читать полностью »

Сбор данных Atari 2600 для обучения с подкреплением

2016-12-28 в 15:06, admin, рубрики: AI, Atari 2600, machine learning, open source, reinforcement learning, дипломная работа, искусственный интеллект, машинное обучение, обучение с подкреплением

Сбор данных Atari 2600 для обучения с подкреплением - 1
Сайт atarigrandchallenge.com, предназначенный для сбора данных

Всем привет! “Искусственный интеллект победил человека в Го”, “Искусственный интеллект играет в Atari 2600 лучше чем человек”, “Компьютерные боты приблизились по уровню игры в Doom к человеческим игрокам” — последнее время таких заголовков становится всё больше и больше. Появляются многочисленные среды для разработки и тестирования алгоритмов обучения с подкреплением (Reinforcement Learning): OpenAI Universe, Microsoft Minecraft Malmo, DeepMind SCII. И кто знает, что будет завтра?

Для своей магистерской работы я хочу собрать коллекцию реплеев игр для Atari 2600, сыгранных людьми. В дальнейшем я использую ее для обучения ботов и выложу все собранные данные в открытый доступ, чтобы все желающие могли использовать их для своих исследований.
Читать полностью »

OpenAI Universe. Открытая платформа для тренировки сильного ИИ

2016-12-05 в 16:17, admin, рубрики: docker, open source, OpenAI Gym, OpenAI Universe, python, vnc, ИИ, интеллектуальный агент, искусственный интеллект, обучение с подкреплением, Программирование, Софт

OpenAI Universe. Открытая платформа для тренировки сильного ИИ - 1
Набор задач для обучения с подкреплением сильного ИИ в рамках универсальной платформы OpenAI

Основанная Илоном Маском и соратниками некоммерческая организация OpenAI, которая ставит целью создание безопасного (то есть общедоступного и открытого) искусственного интеллекта, сделала очередной шаг для осуществления своих планов. OpenAI представила связующее программное обеспечение Universe для тренировки и обучения сильного ИИ. Теоретически, обучение может происходить на всей информации человечества, доступной через интернет. Это игры, веб-сайты и прочие приложения.

Всего девять строчек кода — и вашему ИИ доступны тысячи окружений для тренировки.
Читать полностью »

BlackBox Challenge: Что внутри черного ящика?

2016-04-30 в 10:39, admin, рубрики: artificial intelligence, big data, blackbox challenge, cython, deep learning, machine learning, reinforcement learning, искусственный интеллект, машинное обучение, нейронные сети, обучение с подкреплением, Спортивное программирование, метки: blackbox challenge

Всем привет!

Сегодня речь пойдет о состязании, в области машинного обучения, BlackBox Challenge, а также о самом черном ящике, механизмах его работы, изменения состояний, начисления вознаграждений и конечно о том, что же там внутри.
Чуть ниже я опубликую решение, входящее, на момент публикации, в 5-ку лучших.
Уверен оно поможет другим участникам улучшить свои результаты, а возможно и отыскать новый подход.

BlackBox Challenge: Что внутри черного ящика? - 1
Читать полностью »

Промышленный робот учится методом проб и ошибок

2016-03-18 в 12:39, admin, рубрики: abb, fanuc, искусственный интеллект, Научно-популярное, облачная робототехника, обучение с подкреплением, робототехника, метки: abb, fanuc

Fanuc — крупнейший в мире производитель промышленных роботов, которые используют обучение с подкреплением, чтобы самостоятельно выяснить, как выполнять поставленные перед ними задачи.

В Токио, внутри скромного на вид офисного здания, живет необыкновенно умный промышленный робот, разработанный японской компанией Fanuc. Дайте ему задачу: взять виджеты из одной коробки и положить их в другую, и он будет всю ночь пытаться понять, как это сделать. Утром машина уже освоит эту работу, точно также, как если бы была запрограммирована специалистом, сообщает technologyreview.
Читать полностью »

Запущен свободный проект GNU Gneural Network

2016-03-14 в 13:34, admin, рубрики: FSF, GNU Gneural Network, open source, искусственный интеллект, нейросеть, обучение с подкреплением, рекуррентная нейросеть, сеть прямого распространения, Софт, Фонд свободного ПО

Запущен свободный проект GNU Gneural Network - 1

Нейросети и системы искусственного интеллекта — горячая тема исследований в наши дни. К сожалению, эти исследования часто ведутся в недрах коммерческих компаний, таких как Google и IBM, и закрыты от публики. Чтобы исправить ситуацию, нужно вести исследования открыто, считают энтузиасты из Фонда свободного ПО, которые запустили инициативу GNU Gneural Network.

Пакет Gneural Network представляет собой программируемую нейросеть. В текущей версии 0.0.1 это довольно простая сеть прямого распространения, которая выполняет простые задачи вроде подбора формул — построения кривых по набору значений, но очень скоро разработчики планируют значительно расширить функциональность. Прямо сейчас идёт работа над реализацией архитектуры LSTM (long short term memory) для рекуррентной нейросети и глубинного обучения. Есть также планы по реализации обучения с подкреплением.
Читать полностью »

Обзор примера применения обучения с подкреплением с использованием TensorFlow

2016-01-07 в 21:31, admin, рубрики: artificial intelligence, decision making, deep q-learning, reinforecement learning, TensorFlow, математика, нейронные сети, обучение с подкреплением, Программирование, управление

КПДВ. В Karpathy game играет нейронная сеть

Всем привет!
Я думаю, что многие слышали о Google DeepMind. О том как они обучают программы играть в игры Atari лучше человека. Сегодня я хочу представить вам статью о том, как сделать нечто подобное. Данная статья — это обзор идеи и кода примера применения Q-learning, являющегося частным случаем обучения с подкреплением. Пример основан на статье сотрудников Google DeepMind.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «обучение с подкреплением» - 3

Логарифмируй это: метод логарифмической производной в машинном обучении

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

Софт ИИ обучается делать ИИ: учёные сообщают об успехах в самообучении искусственного интеллекта

Нейросетка играет в Доту

Сбор данных Atari 2600 для обучения с подкреплением

OpenAI Universe. Открытая платформа для тренировки сильного ИИ

BlackBox Challenge: Что внутри черного ящика?

Промышленный робот учится методом проб и ошибок

Запущен свободный проект GNU Gneural Network

Обзор примера применения обучения с подкреплением с использованием TensorFlow

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «обучение с подкреплением» - 3

Новости

Актуальные темы

Архив