Рубрика «обучение с подкреплением»

ChatGPT — лучший помощник программиста. Примеры реальных задач. Плагины и инструменты

2023-04-17 в 9:00, admin, рубрики: chatgpt, e2b, gpt-4, llama, llm, OpenAI, playwright, RLHF, ruvds_статьи, Wolfram Alpha, wolfram language, Блог компании RUVDS.com, будущее здесь, будущее программирования, ИИ, искусственный интеллект, машинное обучение, новые профессии, обучение с подкреплением, Программирование, промт-инженеры

Языковая модель ChatGPT никогда не заменит программиста, потому что непосредственно редактирование кода — это крохотная часть разработки (5% по времени). Зато ChatGPT великолепно помогает. И чем выше ваш скилл — тем больше пользы от «подмастерья», выполняющего мелкие задания и черновой кодинг. Он пишет простые функции, генерирует документацию, находит и объясняет ошибки, выполняет кучу других задач (полный список под катом).

Сегодня не использовать ChatGPT просто глупо… Это действительно универсальный помощник, который сильно облегчает жизнь и выводит программирование на принципиально новый уровень. Одно из величайших изобретений в IT за десятилетия, после GUI и интернета.

Пожалуй, никогда программирование не было настолько приятным и эффективным, как сейчас.
Читать полностью »

Как нарисовать Мону Лизу без кистей и красок?

2022-05-22 в 16:13, admin, рубрики: искусственный интеллект, искусство, машинное обучение, обучение с подкреплением

Рисуем Мону Лизу используя глубокое обучение с подкреплением

Как нарисовать Мону Лизу без кистей и красок? - 1

Пост написан специально для всех любителей искусства (и, возможно, машинного обучения).

На самом деле, специально для лучшего курса по ML.

Читать полностью »

Обучение с подкреплением на Python: Пример не из «качалки»

2021-10-30 в 12:33, admin, рубрики: python, reinforcement learning, машинное обучение, обучение с подкреплением, Разработка робототехники

Постановка задачи

Обучение с подкреплением молодая и бурно растущая дисциплина. Это обстоятельство привело к тому что информации об этом на русском языке почти нет. Особенно, если дело касается объектно-ориентированного подхода, и практических задач не из арсенала "качалки".

Представляю вам результат простой задачи, которая как я надеюсь, убережет вас от части шишек встречающихся на этом интересном пути.

Предположим задачу, в которой нано робот с антибиотиком должен подобраться к скоплению патогенных бактерий для их уничтожения.

Загрузим Reinforsment Learning от Keras и библиотеку для анимации.

Читать полностью »

ИИ снова победил пилота F-16 в воздушном бою

2020-08-21 в 10:32, admin, рубрики: Darpa, Блог компании Cloud4Y, ИИ, искусственный интеллект, Научно-популярное, обучение с подкреплением, самолёт

ИИ снова победил пилота F-16 в воздушном бою - 1

В истории о машинах, побеждающих людей, появилась новая глава: ИИ снова победил пилота-человека в виртуальном воздушном бою. Соревнование AlphaDogfight стало финалом испытаний нейросетевых алгоритмов, разработанных для американских вооруженных сил. И наилучшей демонстрацией возможностей интеллектуальных автономных агентов, способных победить вражеские самолеты в воздушном бою. Подробнее — в материале Cloud4Y.Читать полностью »

ИИ DeepMind научился играть лучше человека в 57 игр Atari, но до идеала далеко

2020-04-02 в 13:33, admin, рубрики: Atari 2600, deep mind, Алгоритмы, машинное обучение, обучение с подкреплением

Компания Deep Mind, занимающаяся разработкой искусственного интеллекта, создала ИИ Agent57 с глубоким обучением, который получил среднюю оценку во всех 57 играх приставки Atari 2600 выше, чем человек, сообщается на сайте Deep Mind. Читать полностью »

ИИ, пытающийся избежать проблем, научился сложному поведению

2019-12-21 в 20:38, admin, рубрики: reinforcement learning, ИИ, искусственный интеллект, нейронные сети, обучение с подкреплением

ИИ, пытающийся избежать проблем, научился сложному поведению - 1

В обучении с подкреплением (Reinforcement Learning) часто используется любопытство в качестве мотивации для ИИ. Заставляющее его искать новые ощущения и исследовать окружающий мир. Но жизнь полна неприятных сюрпризов. Можно упасть с обрыва и с точки зрения любопытства это всегда будут очень новые и интересные ощущения. Но явно не то, к чему надо стремиться.

Разработчики из Berkeley перевернули задачу для виртуального агента с ног на голову: главной мотивирующей силой сделали не любопытство, а наоборот — стремление всеми силами избегать любой новизны. Но "ничего не делать" оказалось сложнее, чем кажется. Будучи помещенным в постоянно меняющийся окружающий мир, ИИ пришлось обучиться сложному поведению, чтобы избегать новых ощущений.

Читать полностью »

PDDM — Новый Model-Based Reinforcement Learning алгоритм с улучшенным планировщиком

2019-10-04 в 18:43, admin, рубрики: reinforcement learning, искусственный интеллект, нейронные сети, обучение с подкреплением, робототехника

PDDM — Новый Model-Based Reinforcement Learning алгоритм с улучшенным планировщиком - 1

Обучение с подкреплением (Reinforcement Learning) делится на два больших класса: Model-Free и Model-Based. В первом случае действия оптимизируются напрямую по сигналу награды, а во втором нейросеть является только моделью реальности, а оптимальные действия выбираются с помощью внешнего планировщика. У каждого подхода есть свои достоинства и недостатки.

Разработчики из Berkeley и Google Brain представили Model-Based алгоритм PDDM с улучшенным планировщиком, позволяющий эффективно обучаться сложным движениям с большим числом степеней свободы на небольшом числе примеров. Чтобы научиться вращать мячи в роботизированной руке с реалистичными суставами пальцев с 24 степенями свободы, потребовалось всего 4 часа практики на реальном физическом роботе.

Читать полностью »

Дифференцируемое программирование

2019-07-10 в 17:28, admin, рубрики: Julia, machine learning, градиентный спуск, дифференцирование, машинное обучение, ненормальное программирование, обучение с подкреплением, Программирование

Дифференцируемое программирование - 1

С четырьмя параметрами я могу задать слона, а с пятью я могу заставить его шевелить хоботом.
– John Von Neumann

Идея «дифференцируемого программирования» очень популярна в мире машинного обучения. Для многих не ясно, отражает ли этот термин реальный сдвиг в том, как исследователи понимают машинное обучение, или это просто (еще один) ребрендинг «глубокого обучения». В этом посте разъясняется, что нового дает дифференцируемое программирование (или ∂P) в таблице машинного обучения.

Самое главное, дифференцируемое программирование — это сдвиг, противоположный направлению глубокого обучения; от все более сильно параметризованных моделей к более простым, которые в большей степени используют структуру проблемы.

Далее мы пролистаем полотно неинтересного текста, захотим узнать, что такое автодифференцирование и даже популяем из катапульты!

Читать полностью »

Мелкая питонячая радость #6: OpenAI Gym — играем в игры и управляем роботами

2019-07-04 в 10:50, admin, рубрики: python, машинное обучение, мелкая питонячая радость, обучение с подкреплением

Мы привыкли к тому, что специалисты по машинному обучению огромную часть своего рабочего времени сидят над анализом табличных данных или обучают нейросеть для раскладывания фотографий кошек и собак на две аккуратные кучки. Ибо такова воля бизнеса — чаще всего нужно давать прогнозы, классифицировать данные и строить модели.

Сегодня мы проветрим мозги и разомнем дряблеющие от скуки синапсы с помощью кое-чего интересного — OpenAI Gym.

Мелкая питонячая радость #6: OpenAI Gym — играем в игры и управляем роботами - 1

Читать полностью »

Обучение с подкреплением или эволюционные стратегии? — И то, и другое

2019-06-14 в 19:54, admin, рубрики: Алгоритмы, Блог компании Издательский дом «Питер», искусственный интеллект, Исследования и прогнозы в IT, машинное обучение, обучение с подкреплением, психология, эволюционные стратегии

Привет!

Мы нечасто решаемся размещать здесь переводы текстов двухлетней давности, без кода и явно академической направленности — но сегодня сделаем исключение. Надеемся, что дилемма, вынесенная в заголовок статьи, волнует многих наших читателей, а фундаментальную работу об эволюционных стратегиях, с которой полемизирует этот пост, вы уже читали в оригинале или прочитаете сейчас. Добро пожаловать под кат!

Обучение с подкреплением или эволюционные стратегии? — И то, и другое - 1
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «обучение с подкреплением»

ChatGPT — лучший помощник программиста. Примеры реальных задач. Плагины и инструменты

Как нарисовать Мону Лизу без кистей и красок?

Рисуем Мону Лизу используя глубокое обучение с подкреплением

Обучение с подкреплением на Python: Пример не из «качалки»

Постановка задачи

ИИ снова победил пилота F-16 в воздушном бою

ИИ DeepMind научился играть лучше человека в 57 игр Atari, но до идеала далеко

ИИ, пытающийся избежать проблем, научился сложному поведению

PDDM — Новый Model-Based Reinforcement Learning алгоритм с улучшенным планировщиком

Дифференцируемое программирование

Мелкая питонячая радость #6: OpenAI Gym — играем в игры и управляем роботами

Обучение с подкреплением или эволюционные стратегии? — И то, и другое

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «обучение с подкреплением»

Рисуем Мону Лизу используя глубокое обучение с подкреплением

Постановка задачи

Новости

Актуальные темы

Архив