Метка «обучение с подкреплением»

Коучинг не учит, а помогает учиться.

Тимоти Голви

Мы можем учиться, учиться,
может быть, учиться учиться.

Грегори Бейтсон

Грегори БейтсонГрегори Бейтсон — один из наиболее влиятельных мыслителей нашего времени (по мнению Фритьофа Капры, «Дао физики»), работы которого соединяют знания из эпистемологии, кибернетики, антропологии, психологии, экологии. Одним из самых фундаментальных концептов Бейтсона является идея о логических уровнях обучения и коммуникации.

Основание ее лежит в теории логических типов Бертрана Рассела, которая коротко может быть изложена следующим образом: все объекты мышления организованы в своеобразную иерархию, к нулевому типу которой относятся индивидуальные объекты (например, ложка). К первому типу относятся множества объектов нулевого типа (например, ложки как множество); ко второму — множества множеств этих объектов (например, «столовые приборы» как множество, которое объединяет ложки, вилки, ножи и другие приборы) и т. д. Таким образом проводится строгое разграничение между предметами, свойствами предметов, свойствами свойств предметов и т. д.

Читать полностью »

В прошлый раз мы рассмотрели общую постановку задачи о многоруких бандитах, обсудили, зачем это может быть нужно, и привели один очень простой, но эффективный алгоритм. Сегодня я расскажу о ещё одной модели, которая эффективна в ситуациях, когда ожидаемые доходы от бандитов меняются со временем, да и само число и состав «ручек» может меняться – о динамической гамма-пуассоновской модели.

Многорукие бандиты: модель dynamic Gamma Poisson
Читать полностью »

Это первый пост из блога Surfingbird, который я выношу в общие хабы алгоритмов и искусственного интеллекта; честно говоря, раньше просто не догадался. Если интересно, заходите к нам, чтобы прочесть предыдущие тексты, – я не знаю, что произойдёт, если просто добавить новые хабы к постам несколькомесячной давности.

Краткое содержание предыдущих серий о рекомендательных системах:

В этот раз начинаем новую тему – о многоруких бандитах. Бандиты – это самая простая, но от этого только более важная постановка задачи в так называемом обучении с подкреплением

Многорукие бандиты: введение и алгоритм UCB1
Читать полностью »

Я тут написал статью Проблема «двух и более учителей». Первые штрихи, пытаясь показать одну сложную нерешенную проблему. Но первые штрихи оказались немного за сложными. Поэтому я решил для читателей немного разжевать теорию. Увы, сейчас видимо учат/(учатся ?) несколько шаблонно — типа как для каждой задачи свои методы.

Так мне указали, что для задачи классификации — нейронные сети (обучение с учителем), генетические алгоритмы (обучение без учителя) — задача кластеризации, а еще есть обучение с подкреплением (Q-обучение) — как задача агента, которых бродит и что-то делает. И вот такими шаблонами многие и судят.

Попробуем разобраться, что дает применение нейронных сетей, как некоторые заявляют, к задаче которую они не могут решить — а именно к обучению с подкреплением.

И заодно проанализируем диссертацию Бурцев М.С., «Исследование новых типов самоорганизации и возникновения поведенческих стратегий», в которой не больше не меньше красиво сделано именно применение простеньких нейронных сетей в задаче обучения с подкреплением.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js