- PVSM.RU - https://www.pvsm.ru -
Всем привет!
У нас доступна для предзаказа одна из лучших книг по обучению с подкреплением, в оригинале именуемая "Deep Reinforcement Learning Hands-on [1]" под авторством Максима Лапаня. Вот как будет выглядеть обложка русского перевода [2]:
Чтобы вы могли оценить краткое содержание книги, предлагаем вам перевод обзора, написанного автором к выходу оригинала.
Привет!
Я – энтузиаст-самоучка, увлекающийся глубоким обучением. Поэтому, когда со мной связались представители издательства «Packt», предложившие написать практичную книгу о современном состоянии глубокого обучения с подкреплением, мне было немного боязно, но после некоторых колебаний я согласился, оптимистично предполагая: «о, будет же интересный опыт».
Не скажу, что эта работа далась мне как легкая прогулка, конечно нет. Никаких тебе выходных, никакого свободного времени, постоянный страх «сморозить глупость» и погоня за дедлайнами по каждой главе (две недели на главу и код примеров). Однако, в целом все прошло позитивно и очень интересно.
Прежде чем кратко описать содержание каждой главы, давайте опишу вам идею всей книги.
Когда я начал экспериментировать в области RL более четырех лет назад, в моем распоряжении были следующие источники информации:
Может быть, что-то еще было, но важнейшими источниками информации были именно эти. Все они очень далеки от практики:
В то же время, меня очень зацепила статья DeepMind [5] (“Нейронная сеть может по пикселям обучиться играть в игры Atari! ВАУ!”), и я чувствовал, что за этой сухой теорией скрывается огромная практическая ценность. Итак, я потратил очень много времени на изучение теории, реализуя различные методы и занимаясь их отладкой. Как вы, вероятно, догадываетесь, это было непросто: можно потратить пару недель на оттачивание метода, а затем обнаружить, что ваша реализация неверна (или, того хуже, вы неправильно поняли формулу). Я не считаю такое обучение тратой времени – напротив, я думаю, что это самый правильный способ изучить что-либо. Однако, на это требуется масса времени.
Два года спустя, когда я приступил к работе над текстом, моя основная цель была такова: дать основательную практичную информацию по методам RL читателю, который только знакомится с этой увлекательной дисциплиной – как я когда-то.
Теперь немного о книге. Она ориентирована прежде всего на практику, причем, я постарался свести к минимуму объем теории и формул. Ключевые формулы в ней есть, но доказательства не приводится. В основном я стараюсь дать интуитивное понимание происходящего, не стремясь максимальной строгости изложения.
В то же время, предполагается, что читатель обладает базовыми знаниями глубокого обучения и статистики. В книге есть глава с обзором библиотеки PyTorch (так как все примеры даны с использованием PyTorch), но эту главу нельзя считать самодостаточным источником информации по нейронным сетям. Если вы раньше никогда не слышали о функциях потерь и активации – начните с изучения других книг, сегодня их много. (Прим. пер.: например, книга "Глубокое обучение [6]").
В моей книге вы найдете массу примеров различной сложности, начиная с самых простых (метод CrossEntropy
в среде CartPole
содержит ~100 строк на python), заканчивая немаленькими проектами, например, изучением AlphGo Zero или агента RL для торговли на бирже. Код примеров полностью выложен на GitHub [7], всего там более 14k строк кода на Python.
Книга состоит из 18 глав, охватывающих наиболее важные аспекты современного глубокого обучения с подкреплением:
Вот и все! Надеюсь, книга вам понравится.
Автор: ph_piter
Источник [16]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/python/335268
Ссылки в тексте:
[1] Deep Reinforcement Learning Hands-on: https://www.amazon.com/Practical-Reinforcement-Learning-Maxim-Lapan/dp/1788834240
[2] русского перевода: https://www.piter.com/collection/soon/product/glubokoe-obuchenie-s-podkrepleniem-alphago-i-drugie-tehnologii
[3] Reinforcement Learning: An Introduction: https://www.amazon.com/Reinforcement-Learning-Introduction-Adaptive-Computation/dp/B008H5Q8VA
[4] arxiv.org: https://arxiv.org/abs/1312.5602
[5] статья DeepMind: https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
[6] Глубокое обучение: https://www.piter.com/collection/A31-821/product/glubokoe-obuchenie
[7] Код примеров полностью выложен на GitHub: https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On
[8] OpenAI Gym: https://gym.openai.com
[9] окружении CartPole: https://gym.openai.com/envs/CartPole-v1/
[10] в окружении FrozenLake: https://gym.openai.com/envs/FrozenLake-v0/
[11] Rainbow: Combining improvements in Deep RL: https://arxiv.org/abs/1710.02298
[12] корнеллского корпуса кинодиалогов: https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
[13] вот: https://twitter.com/karpathy/status/809889202120884224?lang=en
[14] вот: http://proceedings.mlr.press/v70/shi17a/shi17a.pdf
[15] попытку DeepMind: https://deepmind.com/blog/article/agents-imagine-and-plan
[16] Источник: https://habr.com/ru/post/474276/?utm_source=habrahabr&utm_medium=rss&utm_campaign=474276
Нажмите здесь для печати.