Математика апокалипсиса: теория игр и карибский ядерный кризис

в 4:34, , рубрики: Занимательные задачки, история, карибский кризис, Куба, логические игры, математика, теория игр, ядерная война
image

Теория ходов

Математика апокалипсиса: теория игр и карибский ядерный кризис - 2«Мы сыграли в гляделки, и, по-моему, противник моргнул», — сказал государственный секретарь США Дин Раск на пике кубинского ракетного кризиса в октябре 1962 года. Он имел в виду сигналы, которые подавал Советский Союз, желая разрешить самую опасную ядерную конфронтацию между двумя сверхдержавами, которую многие аналитики интерпретировали как классический пример игры в ядерного «цыплёнка» (на русском аналог этой игры называется «ястребы и голуби»).

Игра в «цыплёнка» обычно используется для моделирования конфликтов, в которых каждый из игроков взял курс на столкновение. Игроками могут быть водители, приближающиеся друг к другу на узкой дороге, каждый из который имеет выбор — свернуть, чтобы избежать столкновения, или не сворачивать. В рассказе «Бунтарь без причины», который позже был переделан в фильм с участием Джеймса Дина, водителями были два подростка, но они ехали не друг на друга, а к обрыву. Цель игры была в том, чтобы не нажать на тормоза первым и не превратиться таким образом в «цыплёнка», и в то же время не свалиться с обрыва.

Хотя с виду карибский ракетный кризис похож на игру в «цыплёнка», на самом деле он плохо моделируется этой игрой. Другая игра более точно описывает действия лидеров США и Советского Союза, но даже для этой игры стандартная теория игр не полностью описывает доступные им варианты выбора.

С другой стороны, воспроизводит или предсказывает прошлое действий лидеров «теория ходов» (theory of moves), основанная на теории игр, но радикально меняющая стандартные правила игры. Что ещё более важно, эта теория проливает свет на динамику игры, основываясь на предположении, что игроки думают не только о непосредственных последствиях их действий, но и об их влиянии на игру в будущем.

Я использую карибский ядерный кризис, чтобы проиллюстрировать отдельные части этой теории, которая не просто является абстрактной математической моделью, но и отражает выбор, сделанный в реальной жизни, мыслительные процессы, которые к нему привели, а также объясняет действия живых игроков из плоти и крови. Особый советник президента Джона Кеннеди Теодор Соренсен на самом деле использовал терминологию «ходов», описывая обсуждения исполнительного комитета (Excom, Executive Committee) главных советников Кеннеди во время кубинского ракетного кризиса:

«Мы обсуждали реакции Советов на любые возможные ходы Соединённых Штатов, нашу реакцию на эти действия Советов, и так далее, пытаясь дойти по каждому из этих путей до логического завершения».

Классическая теория игр и ядерный кризис

Математика апокалипсиса: теория игр и карибский ядерный кризис - 3Теория игр — это область математики, изучающая принятие решений в социальных взаимодействиях. Она применяется к ситуациям (играм), в которых двое или более людей (называемых игроками) выбирают из двух или более способов действий (называемых стратегиями). Возможные результаты игры зависят от действий, выбранных всеми игроками, и могут оцениваться по порядку предпочтительности для каждого игрока.

В некоторых играх на двух игроков и с двумя стратегиями существуют стратегии игроков, являющиеся в некотором смысле «стабильными». Это справедливо, когда ни один из игроков, отклонившись от своей стратегии, не сможет добиться лучших результатов. Такие две стратегии вместе называются равновесием Нэша, в честь математика Джона Нэша, получившего в 1994 году Нобелевскую премию по экономике за свою работу в области теории игр. Равновесия Нэша не обязательно ведут к наилучшим результатам для одного или даже двоих игроков. Более того, в играх, которые можно проанализировать и где игроки могут устанавливать только ранг результатов («ординальные игры»), но не могут связывать с ними численные значения («кардинальные игры») — они могут и не существовать. (Хотя, как показал Нэш, они всегда существуют в кардинальных играх, но равновесие Нэша в таких играх может включать в себя «смешанные стратегии», о которых я расскажу ниже.)

Кубинский ядерный кризис был инициирован попыткой Советского Союза в октябре 1962 года установить на Кубе ядерные баллистические ракеты средней и промежуточной дальности, способные нанести удар по большой части США. Целью Соединённых Штатов было немедленное перемещение советских ракет, и для её достижения высшее руководство США серьёзно рассматривало две стратегии [см. рисунок 1]:

  1. Морская блокада (B), или, как её завуалированно называли, «карантин», для предотвращения доставки новых ракет, за которой потенциально могло последовать более серьёзное действие, которое вынудило бы Советский Союз убрать уже установленные ракеты.
  2. «Хирургический» авиаудар (A) для уничтожения уже установленных ракет, насколько это было возможно, за которым потенциально могло последовать вторжение на остров.

Перед руководством Советского Союза открывались следующие альтернативы:

  1. Отзыв (W) своих ракет.
  2. Сохранение (M) ракет на острове.

Советский Союз (СССР)
Отзыв (W) Сохранение (M)
Соединённые штаты (США) Блокада (B) Компромисс (3,3) Победа Советов, поражение США (2,4)
Авиаудар (A) Победа США, поражение Советов (4,2) Ядерная война (1,1)

Рисунок 1: кубинский ядерный кризис как игра в «цыплёнка»

Ключ: (x, y) = (выигрыш США, выигрыш Советов): 4=наилучший; 3=чуть хуже наилучшего; 2=чуть лучше наихудшего; 1=наихудший. Равновесие Нэша выделено подчёркиванием.

Эти стратегии можно считать альтернативными программами действий, которые могут выбирать две стороны, или «игроки» в терминологии теории игр. Они ведут к четырём возможным результатам, которые игроки должны оценить по рангу следующим образом: 4=наилучший; 3=чуть хуже наилучшего; 2=чуть лучше наихудшего; 1=наихудший. То есть чем больше число, тем больше выигрыш; но выигрыши только ординальны, то есть они обозначают только порядок выигрышей от лучшего к худшему, но не до той степени, в которой игрок предпочтёт один результат другому. Первое число в каждом из парных результатов — это выигрыш игрока в по горизонтали (США), второе число — это выигрыш игрока по вертикали (СССР).

Не нужно и говорить, что выборы стратегии, вероятные результаты и связанные с ними выигрыши, показанные на рисунке 1, дают только общий скелет картины кризиса, разворачивавшегося на протяжении тринадцати дней. Обе стороны рассматривали больше, чем две альтернативы из списка, а также у каждого из них было несколько вариаций. Советы, например, требовали отзыва американских ракет из Турции в качестве quid pro quo за отзыв собственных ракет с Кубы. Это требование было публично проигнорировано США.

Тем не менее, большинство наблюдателей за этим кризисом полагало, что две сверхдержавы взяли курс на столкновение, что и дало название одной из книг, посвящённой этому ядерному противостоянию. Кроме того, они согласны с тем, что ни одна из сторон не стремилась делать никаких непоправимых шагов, как один из играющих в «цыплёнка» водителей, демонстративно сорвавший на виду другого водителя руль своей машины, исключив таким образом возможность свернуть.

Хотя в каком-то смысле США «выиграли», заставив Советы отозвать свои ракеты, первый секретарь СССР Никита Хрущёв в то же время выудил у президента Кеннеди обещание не нападать на Кубу, поэтому можно считать такой конечный результат своего рода компромиссом. Но для игры в «цыплёнка» это не является прогнозом по теории игр, потому что связанные с компромиссом стратегии не составляют равновесия Нэша.

Чтобы убедиться в этом, предположим, что игра находится в позиции компромисса (3,3), то есть США блокируют Кубу, а СССР отзывает свои ракеты. Эта стратегия нестабильна, поскольку у обоих игроков есть стимул отклонения к своей более воинственной стратегии. Если бы США отклонилась, сменив свою стратегию на авиаудар, то игра сместилась бы к (4,2), улучшив полученный США выигрыш; если бы СССР отклонился, сменив стратегию на сохранение ракет, то игра сместилась бы к (2,4), давая СССР выигрыш 4. (Такая классическая схема теории игр не даёт нам никакой информации о том, какой результат будет выбран, потому что таблица выигрышей симметрична для обоих игроков. Это частая проблема интерпретации результатов теоретического анализа игр, где может возникать несколько позиций равновесия.) Наконец, если игроки получат взаимно наихудший результат (1,1), то есть ядерную войну, то очевидно, что оба будут желать отклониться от него, что сделает связанные с ним стратегии, например (3,3), нестабильными.

Теория ходов и ядерный кризис

Математика апокалипсиса: теория игр и карибский ядерный кризис - 4Использование игры в «цыплёнка» для моделирования ситуации наподобие карибского кризиса проблематично не только потому, что компромиссный результат (3,3) нестабилен, но и потому, что в реальном мире две стороны не выбирают свои стратегии одновременно или независимо друг от друга, как предполагается в описанной выше игре в «цыплёнка». Советы отреагировали конкретно на блокаду, после того, как она была объявлена Соединёнными Штатами. Более того, тот факт, что США рассматривали возможность эскалации конфликта по крайней мере вплоть до авиаудара, говорит о том, что изначальное решение о блокаде не считалось окончательным. То есть после объявления блокады США всё равно рассматривала возможные варианты выбора стратегии.

Следовательно, эту игру лучше моделировать как последовательные переговоры, в которых ни одна из сторон не сделала выбор «всё или ничего»; обе рассматривали альтернативы, в частности на случай того, если противоположная сторона не ответит способом, который другая сторона сочтёт подходящим. В наиболее серьёзном ухудшении отношений ядерного сдерживания между сверхдержавами, сохранявшегося со времён Второй мировой, каждая из сторон осмотрительно прощупывала свой путь, делая угрожающие шаги. Советский Союз, до кризиса опасаясь вторжения на Кубу со стороны США, а также стремясь поддержать свою стратегическую позицию в мире, сделал вывод, что риск установки ракет на острове стоит свеч. Он считал, что США, столкнувшись с fait accompli (со свершившимся фактом), удержится от нападения на Кубу и не решится на другие суровые ответные меры. Даже если установка ракет инициирует кризис, Советы не считали вероятность войны высокой (во время кризиса президент Кеннеди оценивал вероятность войны в интервале от 1/3 до 1/2), то есть риск спровоцировать США был бы для них рациональным.

Есть обоснованные причины считать, что высшее руководство США не рассматривало конфронтацию как игру в «цыплёнка», по крайней мере, в том, как оно интерпретировало и ранжировало возможные результаты. Я предлагаю альтернативную модель карибского ядерного кризиса в форме игры, которую назову «Альтернатива». В ней я сохраню те же стратегии игроков, что и в «цыплёнке», но предположу другое ранжирование и интерпретацию результатов Соединёнными Штатами [см. рисунок 2]. Такое ранжирование и интерпретации лучше соответствуют историческим документам, чем параметры игры в «цыплёнка», насколько можно судить по заявлениям, сделанным президентом Кеннеди и Военно-воздушными силами США, а также по видам и количеству ядерного вооружения, имевшегося у СССР (подробнее об этом ниже).

  1. BW: выбор Соединёнными Штатами блокады и отзыва ракет Советским Союзом по-прежнему считается компромиссом для обоих игроков — (3,3).
  2. BM: перед лицом блокады США сохранение Советами ракет на Кубе ведёт к победе СССР (наилучшему для него результату) и капитуляции США (наихудшему для них результату) — (1,4).
  3. AM: авиаудар, уничтожающий сохранённые Советским Союзом ракеты, рассматривается «почётным» для США действием (наилучшим для них результатом) и поражением Советов (их наихудшим результатом) — (4,1).
  4. AW: авиаудар, уничтожающий отозванные Советами ракеты, считается «позорным» действием США (результатом чуть лучше наихудшего для них) и поражением Советов (результатом чуть лучше наихудшего) — (2,2).

Советский Союз (СССР)
Отзыв (W) Сохранение (M)
Соединённые штаты (США) Блокада (B) Компромисс
(3,3)
Победа Советов, капитуляция США
(1,4)
Математика апокалипсиса: теория игр и карибский ядерный кризис - 5 Математика апокалипсиса: теория игр и карибский ядерный кризис - 6
Авиаудар
(A)
«Позорное» действие США, поражение Советов (2,2) «Почётное» действие США, поражение Советов (4,1)

Рисунок 2: Карибский ядерный кризис как «Альтернатива»

Ключ: (x, y) = (выигрыш для США, выигрыш для СССР), 4 = наилучший; 3 = чуть хуже наилучшего; 2 = чуть лучше наихудшего; 1 = наихудший. Неблизорукие равновесия выделены полужирным. Стрелками показано направление цикла.

Даже несмотря на то, что авиаудар в обоих случаях приводит к поражению Советов, (2,2) и (4,1), я интерпретирую (2,2) как наносящий наименьший ущерб СССР, потому что с точки зрения остального мира авиаудар может рассматриваться как вопиюще чрезмерной реакцией, а потому «позорным» действием США в случае существования чёткого свидетельства того, что Советы находятся в процессе отзыва ракет. С другой стороны, при отсутствии таких свидетельств авиаудар США, за которым, возможно, последовало бы вторжение, было бы действием по вытеснению советских ракет.

Заявления высшего руководства США подтверждают соответствие «Альтернативе». В ответ на письмо Хрущёва Кеннеди сообщает:

«Если вы согласитесь на демонтаж этих систем вооружения с Кубы… мы, со своей стороны, согласимся… (а) безотлагательно снять действующие в данный момент карантинные меры и (б) гарантировать ненападение на Кубу»,

что соответствует «Альтернативе», поскольку (3,3) для США предпочтительнее, чем (2,2), в то время как (4,2) в «цыплёнке» не предпочтительнее (3,3).

Если бы Советы сохранили свои ракеты, то США предпочли бы блокаде авиаудар. По словам Роберта Кеннеди, близкого советника своего брата в то время,

«Если они не уберут эти базы, мы уберём их»,

что соответствует «Альтернативе», так как США предпочтут результат (4,1) результату (1,4), а не результат (1,1) результату (2,4) по игре в «цыплёнка».

Наконец, было хорошо известно, что многие советники президента Кеннеди с большой неохотой рассматривали инициацию нападения на Кубу, не исчерпав менее воинственных способов действий, которые бы могли привести к отзыву ракет с меньшим риском и большим соответствием идеалам и ценностям Америки. В частности, Роберт Кеннеди заявил, что немедленное нападение выглядело бы как «Перл-Харбор наоборот, и оно бы очернило имя Соединённых Штатов на страницах истории», что соответствует «Альтернативе», потому что США ранжировали AW чуть лучшим, чем наихудший результат (2) — как «позорное» действие Штатов, а не как лучший (4) — победу США — в «цыплёнке».

Хотя «Альтернатива» и обеспечивает более реалистичное представление о восприятии участников игры, чем «цыплёнок», стандартная теория игр почти ничем не помогает в объяснении того, как был достигнут и почему оказался стабильным компромисс (3,3). Как и в «цыплёнке», связанные с этим результатом стратегии не являются равновесием Нэша, потому что у Советов есть немедленный стимул перейти от (3,3) к (1,4).

Однако в отличие от «цыплёнка», в «Альтернативе» вообще нет результатов, являющихся равновесиями Нэша, за исключением «смешанных стратегий». Это такие стратегии, в которых игроки рандомизируют свои выбранные действия, выбирая каждую из своих двух так называемых чистых стратегий с заданными вероятностями. Но для анализа «Альтернативы» невозможно использовать смешанные стратегии, потому что для выполнения подобного анализа к каждому результату необходимо привязать численные выигрыши, а не ранжированные по порядку.

Нестабильность результатов в «Альтернативе» лучше всего заметна при изучении цикла предпочтений, обозначенных стрелками, идущими в этой игре по часовой стрелке. Следование по этим стрелкам означает, что данная игра циклична, и у одного игрока всегда есть немедленный стимул отклониться от каждого состояния: у Советов — от (3,3) к (1,4); у США — от (1,4) к (4,1); у Советов — от (4,1) к (2,2); и у США — от (2,2) к (3,3). У нас снова получилась неопределимость, но не из-за наличия нескольких равновесий Нэша, как в «цыплёнке», а потому, что в «Альтернативе» равновесий между чистыми стратегиями нет.

Правила игры в теории ходов

Математика апокалипсиса: теория игр и карибский ядерный кризис - 7Тогда как же нам объяснить выбор (3,3) в «Альтернативе», а заодно и в «цыплёнке», учитывая неравновесное состояние по стандартной теории игр? Оказывается, что (3,3) является в обеих играх «неблизоруким равновесием» (nonmyopic equilibrium), а в «Альтернативе», согласно теории ходов (theory of moves) (TOM) является единственным таким равновесием. Постулируя, что игроки продумывают наперёд не только ближайшие последствия ходов, но и последствия контрходов в ответ на эти ходы, контр-контрходов и так далее, TOM расширяет стратегический анализ конфликта в более отдалённое будущее.

Разумеется, теория игр позволяет учитывать такое мышление благодаря анализу «деревьев игры», в которых описываются последовательные действия игроков с течением времени. Но дерево игры постоянно изменяется при каждом развитии кризиса. В противоположность этому, в «Альтернативе» конфигурация выигрышей остаётся более-менее постоянной, хотя там игроки находятся в изменённой матрице. По сути, TOM, описывая выигрыши в одной игре, но позволяя игрокам делать последовательные вычисления ходов в разные позиции, добавляет к предлагаемой классической теорией игр экономике описаний неблизорукое мышление.

Основатели теории игр Джон фон Нейман и Оскар Моргенштерн определили игру как «описывающую её совокупность правил». Хотя правила TOM применимы ко всем играм между двумя игроками, здесь я буду считать, что у каждого из игроков есть всего по две стратегии. Четыре правила игры TOM описывают возможные варианты выбора игроков на каждом этапе игры:

Правила игры

  1. Игра начинается с исходного состояния, заданного пересечением строки и столбца в матрице выигрышей.
  2. Любой из игроков может в одностороннем порядке изменить свою стратегию, то есть сделать ход, и перевести таким образом исходное состояние в новое состояние в той же строке или столбце, что и исходное состояние. Меняющий стратегию игрок называется игроком 1 (P1).
  3. Игрок 2 (P2) может ответить,=, в одностороннем порядке изменив свою стратегию, таким образом переведя игру в новое состояние.
  4. Ответы продолжают чередоваться, пока игрок (P1 или P2), который должен ходить следующим, не меняет свою стратегию. Когда это происходит, игра завершается в своём финальном состоянии, которое является результатом игры.

Правило завершения

  1. Игрок не переместится из исходного состояния, если его ходы (i) ведут к менее предпочтительному результату, или (ii) возвращают игру к исходному состоянию, делая это состояние результатом.

Правило преимущества

  1. Если для одного игрока рационально переместиться, а для другого — не перемещаться из исходного состояния, то ход имеет преимущество: он отменяет пребывание на месте, поэтому результат будет вызван игроком, совершившим ход.

Заметьте, что последовательность ходов и контрходов строго чередуется: допустим, сначала ходит игрок по горизонтали, затем игрок по вертикали, и так далее, пока один из игроков не остановится, и на этом этапе состояние станет финальным, а значит, результатом игры. Я предполагаю, что выигрыш игроков не накапливается при нахождении в состоянии, если только оно не становится результатом игры (который может быть и исходным состоянием, если игроки решат не перемещаться из него).

Чтобы предположить противоположное, необходимо, чтобы выигрыши были численными, а не просто ранжированными, тогда игроки могли бы накапливать их, проходя через состояния. Но во многих играх реального мира выигрыши сложно оценить количественно или суммировать по состояниям, в которых они находились. Более того, во многих играх большая награда чрезвычайно сильно зависит от достигнутого финального состояния, а не от того, как оно было достигнуто. В политике, например, выигрыш для большинства политиков заключается не в проведении кампаний, ведь они трудоёмки и затратны, а в победе.

Правило 1 сильно отличается от соответствующего правила игры в стандартной теории игр, где игроки одновременно выбирают стратегии из матричной игры, определяющей её результат. Вместо того, чтобы начинать с выбора стратегии, TOM предполагает, что на начало игры игроки уже находятся в каком-то состоянии и получают выигрыш из этого состояния, только если останутся в нём. На основании этих выигрышей они по отдельности должны решить, стоит ли менять это состояние, пытаясь добиться лучшего.

Разумеется, некоторые решения принимаются игроками коллективно, и в таком случае разумно говорить, что они выбирают стратегии с нуля, или одновременно, или координируя свои действия. Но если, допустим, две страны координируют свои действия, например, соглашаются подписать договор, то важный стратегический вопрос заключается в том, какие индивидуальные вычисления привели их к этой ситуации. Формальное действие по совместному подписанию договора является кульминацией их переговоров и не раскрывает процесс ходов-контрходов, предшествовавших этому подписанию. Именно для раскрытия этих переговоров и лежащих в их основе расчётов и предназначена TOM.

Продолжим этот пример: стороны, подписывающие договор, находились в неком предыдущем состоянии, из которого оба решили переместиться — или, вероятно, только одна решила переместиться, а другая не могла препятствовать этому ходу (правило преимущества). Со временем они попали в новое состояние, после, допустим, переговоров о подписании, и в этом состоянии для обеих стран рационально подписать ранее обговоренный договор.

Как и в случае с подписанием договора, почти все результаты наблюдаемых игр имеют свою историю. TOM стремится стратегически объяснить развитие (врЕменное) состояний, которое привело к привело к (более постоянному) результату. Следовательно, партия игры начинается в исходном состоянии, в котором игроки получают выигрыши, только если остаются в этом состоянии и оно становится финальным состоянием, или результатом, игры.

Если они не остаются в этом состоянии, то по-прежнему знают, какие бы выигрыши получили, если бы остались в состоянии; поэтому они могут произвести рациональный расчёт преимуществ сохранения состояния или перемещения из него. Они перемещаются именно потому что вычислили, что могут улучшить ситуацию, изменив стратегию, ожидая лучшего результата, когда процесс ходов и контрходов наконец придёт к завершению. Когда партия начинается в другом состоянии, игра будет другой, но конфигурация выигрышей останется прежней.

Правила 1 — 4 (правила игры) ничего говорят не о том, что заставляет игру завершиться, а только о том, когда она завершится: завершение происходит, когда «игрок, который должен ходить следующим, не меняет свою стратегию» (правило 4). Но когда рационально будет не продолжать движение, или вообще не перемещаться из исходного состояния?

Правило завершения гласит, что это происходит, когда игрок не перемещается из исходного состояния. Условие (i) объяснений не требует, но условие (ii) нужно обосновать. Оно гласит, что если после хода P1 для партии игры будет рационально вернуться по циклу к исходному состоянию, то P1 не будет перемещаться. В конце концов, в чём смысл затевать весь процесс ходов-контрходов, если партия просто вернётся на «первую клетку поля», с учётом того, что по пути к результату игроки не получат никаких выигрышей?

Обратная индукция

Чтобы определить, на чём завершится партия, когда хотя бы один игрок захочет переместиться из исходного состояния, я предположу, что игроки используют обратную индукцию. Это процесс рассуждения, в котором игроки, проходя назад от последнего возможного хода игры, предвидят рациональные действия друг друга. Для этого я предположу, что каждый из них имеет полную информацию о предпочтениях другого, поэтому каждый может вычислить рациональные действия другого игрока, а также свои собственные, относительно решения о том, нужно ли перемещаться из исходного состояния, или любого последующего состояния.

Чтобы проиллюстрировать обратную индукцию, давайте снова рассмотрим игру «Альтернатива» на рисунке 2. После обнаружения ракет и наложения Штатами блокады игра находилась в состоянии BM, наихудшем для США (1) и наилучшем для Советского Союза (4). Теперь рассмотрим развитие ходов по часовой стрелке, которое могут инициировать США, переместившись в AM, после чего СССР переходит в AW, и так далее, предполагая, что игроки могут предугадать вероятность того, что игра совершит один полный цикл и вернётся к исходному состоянию (состоянию 1):

Состояние 1 Состояние 2 Состояние 3 Состояние 4 Состояние 1
США начинают США (1,4) СССР (4,1) США (2,2) → | СССР (3,3) (1,4)
Выжившее (2,2) (2,2) (2,2) (1,4)

Это дерево игры, только нарисованное не вертикально, а горизонтально. Выжившее — это состояние, выбранное на каждом этапе в результате обратной индукции. Оно определяется возвратом из того состояния, в котором игра теоретически может завершиться (состояние 1, при завершении цикла).

Предположим, что чередующиеся ходы игроков в «Альтернативу» делались по часовой стрелке от (1,4) к (4,1), потом к (2,2) и к (3, 3), и на этом этапе СССР в состоянии 4 должен был решать, остановиться ли на (3,3) или завершить цикл, вернувшись к (1,4). Очевидно, что СССР предпочтёт результат (1,4) результату (3,3), поэтому (1,4) указан как выжившее состояние под (3,3): так как СССР вернёт процесс обратно к (1,4), если он достигнет (3,3), то игроки знают, что если процесс ходов-контрходов достигнет этого состояния, то результатом будет (1,4).

Зная это, будут ли США в предыдущем состоянии (2,2) перемещаться в (3,3)? Так как США предпочтут (2,2) выжившему в (3,3) состоянию, а именно (1,4), ответом будет «нет». Следовательно (2,2) становится выжившим состоянием, когда США должны выбрать между остановкой в (2,2) и перемещением в (3,3) — что, как я только что показал, превратится в (1,4) после достижения (3,3).

В предыдущем состоянии (4,1) СССР предпочтёт переместиться к (2,2), а не останавливаться в (4,1), поэтому (2,2) снова будет выжившим, если процесс достигнет (4,1). Аналогично, в исходном состоянии (1,4), поскольку США предпочтут предыдущее выжившее состояние (2,2) состоянию (1,4), то в этом состоянии выжившим тоже будет (2,2).

Тот факт, что (2,2) является выжившим в исходном состоянии (1,4) означает, что для США рационально переместиться в (4,1), а СССР затем перейти в (2,2), где процесс остановится, делая (2,2) рациональным выбором, если США сделают первый ход из исходного состояния (1,4). То есть вернувшись обратно от выбора СССР о завершении или незавершении цикла из (3,3), игроки могут обратить процесс, и заглядывая вперёд, определить, что будет рационально сделать для каждого из них. Я указываю, что для процесса рационально остановиться на (2,2), поставив вертикальную черту, препятствующую исходящей из (2,2) стрелке, и подчеркнув на этом этапе (2,2).

Заметьте, что (2,2) в состоянии AM хуже для обоих игроков, чем (3,3) в состоянии BW. Может ли СССР, вместо того, чтобы позволить США инициировать процесс ходов-контрходов в состоянии (1,4), улучшить свою ситуацию, перехватив инициативу и двинувшись против часовой стрелки из своего наилучшего состояния (1,4)? Ответ положительный, более того, в интересах США также позволить СССР начать этот процесс, как это видно на следующем развитии ходов от (1,4) против часовой стрелки:

Состояние 1 Состояние 2 Состояние 3 Состояние 4 Состояние 1
СССР начинает СССР (1,4) США (3,3) →| СССР (2,2) США (4,1) (1,4)
Выжившее (3,3) (3,3) (2,2) (4,1)

СССР, действуя «великодушно», перемещается из состояния победы BM (4) к компромиссу (3) в BW, и делает для США рациональным завершение игры в (3,3), что обозначено заблокированной стрелкой из состояния 2. Разумеется, именно это и произошло в кризисе, с угрозой дальнейшей эскалации со стороны США, в том числе вынужденного всплытия советских подводных лодок, а также авиаудара (ВВС США оценивали вероятность уничтожения всех ракет в 90%), став для Советов стимулом для отзыва всех своих ракет.

Применение TOM

Математика апокалипсиса: теория игр и карибский ядерный кризис - 8
Как и любая научная теория, расчёты TOM не могут принимать во внимание эмпирическую реальность ситуации. Например, во втором расчёте обратной индукции сложно представить перемещение Советского Союза из состояния 3 в состояние 4, включающее сохранение (через повторную установку?) ракет на Кубе после их отзыва и авиаудара. Однако, если переход в состояние 4, а позже обратно к состоянию 1 были исключены как невыполнимые, то результат был бы тем же: при выполнении обратной индукции в состоянии 3 для СССР будет рационально изначально переместиться в состояние 2 (компромисс), на котором игра остановится.

Компромисс также будет рациональным в первом расчёте обратной индукции, если тот же ход (возврат к сохранению ракет), который при этом развитии событий является переходом из состояния 4 в состояние 1, считается невыполнимым: выполняя обратную индукцию в состоянии 4, для США будет рационально продолжить эскалацию до авиаудара, чтобы вызвать ходы, приводящие игроков к компромиссу в состоянии 4. Так как для обеих сторон будет менее затратно, если Советский Союз станет инициатором компромисса, устраняя необходимость авиаудара, то неудивительно, что именно это и произошло.

Подведём итог: теория ходов превращает теорию игр в более динамичную теорию. Постулируя, что игроки продумывают наперёд не только ближайшие последствия ходов, но и последствия контрходов в ответ на эти ходы, контр-контрходов и так далее, она расширяет стратегически анализ конфликтов в более отдалённое будущее. TOM также использовалась для того, чтобы показать возможное влияние разных степеней применения силы (перемещений, приказов и угроз) на результаты конфликта, а также продемонстрировать то, как может воздействовать на выбор игроков дезинформация. Эти концепции и анализ проиллюстрированы множеством разных примеров, от конфликтов в Библии до современных споров и столкновений.

Дополнительное чтение

  1. «Theory of Moves», Steven J. Brams. Cambridge University Press, 1994.
  2. «Game Theory and Emotions», Steven J. Brams in Rationality and Society, Vol. 9, No. 1, pages 93-127, February 1997.
  3. «Long-term Behaviour in the Theory of Moves», Stephen J. Willson, in Theory and Decision, Vol. 45, No. 3, pages 201-240, December 1998.
  4. «Catch-22 and King-of-the-Mountain Games: Cycling, Frustration and Power», Steven J. Brams and Christopher B. Jones, in Rationality and Society, Vol. 11, No. 2, pages 139-167, May 1999.
  5. «Modeling Free Choice in Games», Steven J. Brams in Topics in Game Theory and Mathematical Economics: Essays in Honor of Robert J. Aumann, pages 41-62. Edited by Myrna H. Wooders. American Mathematical Society, 1999.


Об авторе

Стивен Дж. Брэмс (Steven J. Brams) — профессор политики в Нью-Йоркском университете. Он является автором и соавтором 13 книг по применению теории игр и теории социального выбора в голосованиях и выборах, переговорах и справедливости, международных отношениях, Библии и теологии. Его последние книги: Fair Division: From Cake-Cutting to Dispute Resolution (1996 год) и The Win-Win Solution: Guaranteeing Fair Shares to Everybody (1999 год) выпущены в соавторстве с Аланом Д. Тейлором. Он член Американской ассоциации развития науки, Общества «общественного выбора», стипендиат стипендии Гуггенхайма, приглашённый эксперт Фонда Рассела Сейджа и президент Международного Общества мирной науки.

Математика апокалипсиса: теория игр и карибский ядерный кризис - 9

Минутка заботы от НЛО

Этот материал мог вызвать противоречивые чувства, поэтому перед написанием комментария освежите в памяти кое-что важное:

Как написать комментарий и выжить

  • Не пишите оскорбительных комментариев, не переходите на личности.
  • Воздержитесь от нецензурной лексики и токсичного поведения (даже в завуалированной форме).
  • Для сообщения о комментариях, нарушающих правила сайта, используйте кнопку «Пожаловаться» (если доступна) или форму обратной связи.

Что делать, если: минусуют карму | заблокировали аккаунт

Кодекс авторов Хабра и хабраэтикет
Полная версия правил сайта

Автор: PatientZero

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js