- PVSM.RU - https://www.pvsm.ru -
18 октября в журнале Nature [1] была опубликована статья компании DeepMind о новых достижениях AlphaGo. Новая версия программы получила название Zero, так как была обучена с нуля без использования данных, полученных от человека, кроме правил самой игры Го. Для тренировок прошлой версии, победившей в чемпионатах с людьми, изначально использовался метод обучения с учителем (supervised learning), и лишь потом обучение с подкреплением (reinforcement learning). То есть изначально программа тренировалась, изучая человеческий опыт и лишь потом на игре против своих же версий. То есть прежняя версия изначально училась предсказывать человеческие ходы. AlphaGo Zero стала своим собственным учителем: нейронная сеть тренировалась предсказывать свой собственный выбор, а также выбор версии-чемпиона.
Создатели программы обоснованно утверждают, что Zero является на данный момент самым сильным игроком в Го за всю историю.
Предыдущие версии AlphaGo изначально училась играть в Го на тысячах людских партий от любительских до профессиональных. Zero была избавлена от человеческих предрассудков, она перескочила этот этап, начала учиться, играя сама с собой, делая изначально просто произвольные ходы. В скором времени программа превзошла человеческий уровень и победила версию-чемпиона.
Но избавление от влияния человеческого опыта — не единственное изменение. На официальном сайте [2] упоминается использование новой формы обучения с подкреплением, суть которой не вполне раскрывается. Понятно, что нейронную сеть объединяют с мощным поисковым алгоритмом. В процессе игр коэффициенты нейронной сети настраиваются и обновляются. Затем обновленную нейронную сеть снова рекомбинируют с поисковым алгоритмом для получения более сильной версии AlphaGo Zero. И так итерация за итерацией система развивается, вместе с тем растет и уровень игры.
Но после этого мутного описания авторы снова говорят, что основное достоинство нового метода в том, что AlphaGo более не скована пределами человеческого знания. Вместо этого она может учиться с нуля у самого сильного игрока в мире — у самой AlphaGo.
Однако упоминается также еще несколько отличий:
Все эти изменения, по словам авторов, помогли улучшить производительность (performance) системы, ее мощность и эффективность, и в то же время сделали ее более универсальной. Если система может учиться самостоятельно абсолютно с нуля — это значит, что из игры в Го её можно “трансплантировать” в любую другую отрасль человеческого знания. Компания DeepMind давно заявляла о том, что их миссия — создание искусственного интеллекта общего назначения, единой системы, которая “из коробки” могла бы решать самые разные задачи.
Важное открытие заключается в том, что AlphaGo не просто научилась играть как люди, но то, что она разработала свои принципиально новые и крайне эффективные подходы к игре в Го, свои стратегии, о которых люди, играя в эту игру тысячи лет, не догадывались. Мало того, что за короткий промежуток времени она освоила то знание, на которое людям потребовались тысячи лет, она выработала принципиально новое знание. И если эта система показала такую высокую эффективность в таком сложном деле, как игра в Го, следующим этапом создатели системы видят поиски ее применения в других отраслях.
Автор: Кирилл Гребнев
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/ii/266304
Ссылки в тексте:
[1] Nature: https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html
[2] На официальном сайте: https://deepmind.com/blog/alphago-zero-learning-scratch/
[3] Источник: https://geektimes.ru/post/294617/
Нажмите здесь для печати.