Фреймы принятия решений в Functional Decision Theory

Фреймы принятия решений в Functional Decision Theory

ReverendBayes

На позапрошлой неделе я послушал лекцию Славы Меритон про Functional Decision Theory (функциональную теорию принятия решений) в контексте различных парадоксов (а на этой неделе будет еще одна лекция). Было очень интересно, но сходу - не всё понятно. Однако проговорив эти парадоксы еще раз, и затем еще немного подумав, я наконец осознал один полезный фрейм, в котором мы можем принимать выигрышные решения во всех этих парадоксах.

Об этом фрейме я и хочу поговорить. Сомневаюсь, что я первым его изобрел, ключевую его идею так уж точно; но все же кажется полезным расписать один и тот же фрейм в нескольких местах с разных сторон, поскольку FDT - концепция не очень-то очевидная, и одного объяснения для хорошего инсайта может быть маловато (а скорее даже одного инсайта для полного понимания всей концепции - даже забыв про стоящую за ней математику).

Некоторые парадоксы теории принятия решений

Вначале я проговорю те самые парадоксы, которые мы хотим решить.

Первый и самый известный из них (собственно, до лекции я сам знал только о нем) - это парадокс Ньюкома. Суть его в том, что к некоему агенту прилетает сверхразумное существо из другой галактики, именуемое Омега. По условию этой задачи Омега всегда идеально предсказывает поведение агентов, с которыми играет (в других задачах он может творить еще более интересные вещи).

Итак, Омега прилетел к агенту (допустим, к вам), положил перед вами две коробки - одну прозрачную, в которой находится тысяча долларов и одну непрозрачную. После этого Омега озвучивает вам условия игры и улетает играть со следующим агентом. Условия таковы: в непрозрачную коробку Омега либо положил миллион долларов, либо не положил ничего. Теперь вам нужно взять либо обе коробки, либо только вторую (и тогда первая исчезнет вместе с содержимым). Причем наличие денег во второй коробке зависит только от того, сколько коробок вы возьмете: если возьмете обе, то она будет пуста; если возьмете только ее, то в ней будет миллион.

По условиям задачи Омега всегда идеально точно предсказывает поведение других агентов. Положив коробки перед вами он больше не будет ничего менять, его единственный ход уже сделан. Побочных эффектов помимо получения денег в игре также не существует (но Омега продолжает играть с агентами на этой планете).

Т.о. возможны только два исхода: либо вы возьмете две коробки и получите тысячу долларов, либо только вторую и получите миллион. Вопрос состоит в следующем: какую стратегию применить, чтобы получить миллион долларов, а не тысячу? Если вы поддадитесь искушению "но ведь Омега уже сделал свой ход, поэтому ничто не помешает мне взять тысячу и миллион сразу", то получите только тысячу.

Еще больше усугубляет эту дилемму вариант парадокса с прозрачными ящиками. Условия его все те же, за исключением того, что перед вами лежит два прозрачных ящика, в одном из которых лежит тысяча, а в другом - миллион. И вам снова предлагается взять либо оба ящика, либо только второй.

Наконец, еще один интересный парадокс - Xor Blackmail Problem. Здесь у нас есть агент, владеющий домом. И в один прекрасный день этот агент услышал слух о том, будто бы в его доме завелись термиты, и для починки дома потребуется потратить миллион долларов. На следующий, еще более прекрасный, день агент получает письмо непосредственно от Омеги (который помимо идеального предсказания поведения агентов обладает также всеведением относительно популяций термитов в домах оных). В письме сказано, что Омега точно знает, правдив ли слух или нет, и при этом посылает подобное письмо только в случае, если реализуется одна из двух альтернатив: либо слух ложен (и термитов в доме нет вовсе), и агент отправит Омеге чек на тысячу долларов; либо слух верен, и агент не отправит Омеге ничего. Вопрос к парадоксу звучит так: нужно ли отправлять чек Омеге?

Вновь считается, что Омега - идеальный предсказатель; при этом он никак не управляет колониями термитов, но зато всегда точно знает, где какие колонии живут, и сколько стоит отремонтировать пораженные ими дома. Других побочных эффектов от отправки или не отправки денег, а равно и поведения термитов, также нет.

Фреймы мышления в FDT

Как же нужно решать все эти парадоксы? Вот несколько хороших идей, которые могут помочь находить ответы:

  • Одинаковые агенты в одинаковых условиях всегда принимают одинаковые решения. Следовательно, мы принимаем решение не только за себя, но и за всех агентов, которые достаточно похожи на нас. Это касается как нашего компаньона по дилемме заключенного (если мы играем со своей FDT-копией, то мы оба кооперируемся), так и "всех наших будущих Я в аналогичных условиях". Последний вариант можно проиллюстрировать так. Пусть в условиях пандемии я принял решение позволить себе оказываться в социальных ситуациях на общую сумму 2000 микроковидов в месяц. И пусть однажды я сорвался и посетил мероприятие на 1500 микроковидов в первый день месяца. Спустя 10 дней по отсутствию симптомов и антител IgM я могу заключить, что в этот раз пронесло. Должен ли я обнулить квоту до 2000 микроковидов, или оставить 500 на оставшиеся 29 дней? Несмотря на кажущееся "все равно ведь не заболел" правильным будет "квота в 500 микроковидов на 29 дней", потому что иначе в последующие месяцы в похожих ситуациях эффективная квота всегда будет 3500 микроковидов в месяц вместо приемлемых для нас 2000.
  • "А что если Омега прилетит завтра снова?" В такой ситуации я точно не захочу быть агентом того типа, который берет обе коробки (потому что тогда Омега завтра будет знать, что должен оставить вторую коробку пустой). Этот фрейм хорошо применим для парадокса Ньюкома с прозрачными ящиками.

Но давайте пойдем немного дальше идеи "выбор Омеги зависит от того, агентом какого типа я являюсь; что в свою очередь зависит от моего предварительного выбора стратегии", и посмотрим, что из этой идеи следует.

Конечно, для агента изменять свою стратегию для игры в парадокс Ньюкома - бессмысленно. Менять стратегию нужно заранее, чтобы к моменту прилета Омеги быть "агентом подходящего типа". Но, кгм, вот лично вы правда ожидаете, что однажды к вам прилетит Омега в голубом вертолете и предложит на выбор не что-нибудь, а именно пару ящиков с деньгами? В реальной жизни бессмысленно готовиться к классическому парадоксу Ньюкома - а вот к соответствующему классу парадоксов подготовиться можно. И для этого нужно менять не стратегию, а мета-стратегию (и первый этап плана по переходу на выигрышную мета-стратегию - узнать об FDT, примерах парадоксов и общих паттернов применения FDT).

Итак, пусть теперь мы изменили нашу мета-стратегию (жизненную стратегию выбора стратегий для конкретных игр). Это означает, что мы сделали упреждающий ход сразу в целом классе игр, ни одна из которых еще не была нам предложена. Более того, из всего возможного класса игр мы выбрали подкласс, в который нам будут предлагать играть (по крайней мере, те оппоненты, кто способен прочесть исходный код нашей стратегии в предполагаемой игре). Реальная жизнь - это поистине strange playing field...

Приложение фрейма "сменить мета-стратегию" в конкретных парадоксах

Рассмотрим теперь, как этот фрейм выглядит на практике (и какие его элементы еще не были проговорены в явной форме).

В парадоксе Ньюкома может быть вилка из двух вариантов:

  • Омега прилетает и видит перед собой человека, который выберет две коробки. Омега оставляет вторую коробку пустой. Варианты выигрыша - тысяча либо ноль (на самом деле тысяча).
  • Омега прилетает и видит перед собой человека, который выберет только вторую коробку. Омега кладет во вторую коробку миллион. Варианты выигрыша - миллион, либо миллион и тысяча (на самом деле ровно миллион).

Наша мета-стратегия состоит в том, чтобы стать таким агентом, который окажется в наиболее выигрышном для нас мире - т.е. во втором. Это значит, что мета-стратегия состоит в том, чтобы в этой игре брать только вторую коробку.

Ровно те же самые рассуждения применимы для парадокса Ньюкома с двумя прозрачными ящиками. Наша мета-стратегия должна быть в том, чтобы даже видя перед собой два ящика с деньгами всегда детерминированно выбирать только второй. Если же наша мета-стратегия будет говорить нам "видишь два ящика с деньгами - бери оба", то Омега никогда не положит нам деньги во второй ящик. В этот мир мы тоже не хотим попасть. Смешанная стратегия (например, "подбрось монетку для определения, сколько ящиков брать") тоже будет нам вредить. Омега заранее знает, как выпадет монетка, и в таких случаях положит перед нами только одну коробку с деньгами и одну пустую.

Немного более сложные рассуждения будут в случае с Xor Blackmail Problem. Первое, что здесь нужно понять - что помимо двух исходов "в доме есть термиты" и "в доме нет термитов" есть еще два, объединенных общим признаком "Омега не прислал письмо" (не стал играть с нами в игру).

Рассмотрим для начала случай мета-стратегии "отправлять чек в ответ на письмо". Здесь возможны две ситуации:

  • В доме завелись термиты (ущерб в миллион долларов), Омега не присылает письмо, у нас нет повода отправлять чек. Итого - минус миллион долларов.
  • В доме нет термитов (но прошел ложный слух), Омега присылает письмо, мы в ответ на него отправляем чек. Итого - минус тысяча долларов.

Теперь мета-стратегия "не отправлять чек в ответ на письмо". Теперь у нас следующие две ситуации:

  • В доме завелись термиты, Омега присылает письмо, на которое мы не отвечаем. Итого - минус миллион долларов.
  • В доме нет термитов, Омега не присылает письмо, у нас нет повода посылать чек. Итого - нулевой ущерб.

Вы можете убедиться, что все четыре варианта соответствуют условиям задачи, а все другие - противоречат им. В этом случае выбор мета-стратегии вновь понятен - мы не должны отправлять деньги в ответ на письмо.

Тут, конечно, стоит отметить, что по условиям задачи корректное предупреждение от Омеги "у тебя в доме завелись термиты, а ты и не знаешь!" не дает нам никакого преимущества (термиты уже в доме, они съели все что можно, и больше уже не съедят). В противном случае заблаговременное предупреждение от Омеги могло бы иметь ценность (выше, чем тысяча долларов), и тогда расклад был бы совсем другим (и появились бы сценарии, которых нет среди четырех вышеперечисленных).

Конечно, те же рассуждения применимы и для Blackmail Problem (которая не Xor): наша мета-стратегия состоит в том, чтобы никогда не поддаваться на шантаж ("не вести переговоры с террористами") - в этом случае Омега не будет предлагать нам играть в эту игру (иначе получит нулевой профит и ненулевой репутационный ущерб).

Впрочем, менее идеальные предсказатели могут использовать смешанную стратегию "иногда пробовать на прочность" такого агента, и тогда наш ожидаемый проигрыш станет ненулевым (и за один раунд мета-игры равен произведению вероятности выбора стратегии "шантажировать" на величину ущерба от выполнения угрозы шантажиста). Однако, выбор чистой стратегии "всегда платить деньги шантажисту" уж точно будет проигрышной мета-стратегией (потому что тогда мета-стратегия шантажиста будет "всегда шантажируй, если есть чем").

Заключение

Кажется, что приведенный здесь фрейм довольно просто объясняет выбор мета-стратегии, которая является выигрышной с точки зрения FDT (и, насколько я понимаю, также и с точки зрения менее совершенной в отношении математики Timeless Decision Theory, вневременной теории принятия решений). Однако знакомство с математической формализацией FDT (какового у меня пока нет), вероятно, может немного изменить эти рассуждения. Впрочем, даже если так, то усвоить описанный способ мышления, как мне кажется, все равно полезно.


Эта статья в моем телеграм-канале: https://t.me/bayesian_little_list/10

Report Page