Стратегии охоты на оленя для Белого рыцаря

ReverendBayes

Ранее мы рассмотрели кооперативную игру “Охота на оленя” и подробно разобрали главный парадокс такой ситуации: несмотря на то, что наиболее выгодным для всех участников игры было бы всем вместе пойти на оленя, из-за совокупности факторов они часто предпочитают гораздо менее благоприятный, но более безопасный вариант - охоту на кролика.

Как же нам с наибольшей вероятностью получать наилучший вариант из возможных? Ранее мы уже совершили небольшой выход в мету для поиска ответа на подобный вопрос. В этой и следующей статьях мы поднимемся на еще более высокий уровень абстракции и рассмотрим некоторые мета-стратегии, которые могут помочь выжать максимум из ситуаций типа “охота на оленя” в реальной жизни.

Максимизируя вероятность поймать оленя

В прошлой статье я описал базовые стратегии для такой игры - Белого рыцаря и Черного рыцаря, обе из которых далеки от совершенства. Белый рыцарь хоть и имеет шансы получить наилучший результат (поймать оленя), но часто получает наихудший вариант из возможных (тратит максимум ресурсов в попытке поймать оленя, но эта попытка оказывается провальной). Черный же рыцарь всегда получает средний вариант (успешно добывает кролика) - он защищен от худшего, но ценой невозможности достичь лучшего.

Далее мы рассмотрели две стратегии, которые неплохо показывают себя в вариациях игры, более близких к реальной жизни - Рыцаря-конформиста и Рыцаря Лапласа. Но заметьте - это по-прежнему стратегии для математических разновидностей базовой игры. Да, эти игры ближе к реальности, но сами стратегии ограничены рамками своих игр. Можем ли мы пойти еще дальше?

Оказывается, да. Если по какой-то причине нам хочется во что бы то ни стало поймать оленя в реальной жизни (а не сыграть наилучшим образом, даже если придется удовлетвориться кроликом), то мы можем перейти на уровень мета-игры и изменить саму форму игрового поля.

Нечто подобное мы уже делали, когда рассматривали фреймы принятия решений в FDT: меняя свою мета-стратегию (стратегию выбора стратегий) за счет мета-прекоммитмента мы изменяли класс игр, в которые нам будут предлагать играть. Только в этот раз мы будем в уже выбранной игре менять именно что обстоятельства, подталкивающие наших оппонентов к выбору стратегий.

Предварительные комментарии о мета-стратегиях

Подобные мета-стратегии я разбил на две группы; в этой статье я рассмотрю три мета-стратегии из первой группы, в следующей - четыре мета-стратегии из второй. Большинство из них вдохновлены постами на lesswrong.com об охоте на оленя или комментариями под этими статьями; я только расширил приводимые там примеры на более широкий класс реальных ситуаций.

Собственно, каждый подход мы будем рассматривать в приложении к трем примерам жизненных ситуаций типа “охота на оленя”, разобранных во второй статье цепочки.

Разумеется, некоторые мета-стратегии будут очевидным образом плохо работать в приложении к конкретной ситуации: моя задача состоит пока не в том, чтобы найти идеальный алгоритм применения мета-стратегии, а только в том, чтобы показать возможность ее применения к максимально широкому классу реальных примеров. Главное - суметь понять, как вообще прикладывать мета-стратегию к ситуации; после этого можно проверить, хорошо ли такие задача и решение друг к другу подходят, и для каждого случая оставить только один-два наиболее перспективных подхода.

Конечно, все эти мета-стратегии не являются взаимоисключающими - обычно вполне реально (а иногда даже полезно) применять сразу несколько. Более того - порой отличить одну от другой может быть довольно трудно, особенно на практике. Но даже если на первый взгляд два подхода кажутся похожими вплоть до неразличимости, в центре своей сути каждый из них имеет свои уникальные особенности, которые я постараюсь максимально подсветить. Даже если в приложении к конкретному примеру это будет выглядеть как натягивание уже рассмотренной ранее совы на стандартный глобус нестандартными методами, на другом примере уникальные отличия мета-стратегий могут оказаться весьма существенными и принципиальными.

Поэтому относитесь ко всем примерам не как к наиболее оптимальному способу решения текущей задачи, а как к иллюстрациям, которые помогут вам лучше прочувствовать суть каждой мета-стратегии. В будущем это поможет вам под каждую конкретную задачу подобрать те подходы, которые будут наиболее удобны и полезны для нее.

Наконец, некоторые мета-стратегии я опишу достаточно схематично; отдельные же примеры их применения и вовсе окажутся крайне грубыми набросками - хотя стратегии и существуют, использовать их вовсе не всегда будет легко; но это не повод не говорить о них вовсе.

Теперь, сделав все важные оговорки, давайте наконец перейдем к описанию того, как же нам лучше всего охотиться на оленя.

Мета-стратегии Белого рыцаря

Отличительной особенностью данного класса мета-стратегий является то, что все участники принимают решение из одинаковой позиции (и, следовательно, похожим образом), и это является общим знанием. А именно, мы создаем такие условия, когда для всех участников оказываются наиболее важными одни и те же аспекты жизненной ситуации, а все различия между участниками оказываются несущественными.

Так мы создаем условия, в которых всем участникам очевидно, что охотиться на оленя - самый естественный и наиболее выгодный выбор; а охотиться на кролика - глупая затея. Фактически, мы делаем общим знанием то, что в этих условиях все участники являются Белыми рыцарями (либо являясь таковыми изначально, либо превратившись в них благодаря соответствующей организации внешних условий).

Мета-стратегия “Игра FDT-копий”

Первая мета-стратегия, которую мы рассмотрим, довольно интересна с точки зрения теории, но применять на практике ее крайне тяжело. Можно довольно многое сказать о причинах подобных трудностей, но поскольку я слабо представляю, как их можно обходить, то обрисую их лишь вкратце. Подробное же описание было бы излишне теоретизированным и непрактичным, и только нагоняло бы тоску.

Итак, в чем же суть этой мета-стратегии? Если вкратце, то в том, чтобы использовать принцип “одинаковые агенты в одинаковых условиях принимают одинаковые решения”. Конкретно - мы хотим, чтобы все члены племени стали “достаточно похожими” друг на друга во всем, что критично для игры в охоту на оленя, и чтобы этот факт стал общим знанием между ними.

В этом случае среди них установится общее знание, что все они либо выберут охоту на оленя, либо на кролика; в определенном смысле можно сказать, что каждый из них делает выбор не только за себя, но и за всех достаточно похожих на него агентов. А поскольку мы делаем их всех идентичными в отношении нашей игры, то они будут выбирать между мирами “я иду на оленя; и все идут на оленя” и “я иду на кролика; и все идут на кролика”. И, конечно, все выбирают пойти на оленя.

Вкратце алгоритм реализации этого подхода выглядит так: вначале вы создаете среди членов племени общее знание о том, что такое охота на оленя, и как она работает; затем - о том, какую конкретно охоту вы предлагаете им провести; и наконец вы убеждаетесь и делаете общим знанием, что ни у кого из них нет иных причин предпочесть охоту на кролика (например из-за недостатка ресурсов), кроме рассмотренных ранее теоретико-игровых. В такой ситуации и становится возможным создание общего знания, что все участники будут играть одним и тем же образом (и предпочтут вариант “все выбирают охотиться на оленя”).

Пример успешного применения

Ввиду того, что создавать общее знание о чем-то нетривиальном между несколькими людьми крайне сложно (ниже мы немного поговорим о том, почему) - удачно использовать эту мета-стратегию крайне тяжело. Я даже не буду указывать ни одного реалистического примера успешного ее применения (но это будет особым исключением - для остальных подходов у меня примеры найдутся).

Правда, если речь идет о взаимодействии агентов, имеющих общую память (т.е. о “сегодняшнем я” и “завтрашнем я” одного и того же человека), то значительная часть этой сложности все-таки снимается. Так что суть этой мета-стратегии полезно знать хотя бы ради одного этого класса ситуаций.

Более того, полезным может быть даже просто периодически смотреть на то, что вы делаете, через призму “откладывать на завтра то, что можно сделать сегодня - бесполезно, поскольку завтра будет то же самое”.

Свойства

Теперь рассмотрим чуть подробнее, почему же применять данную мета-стратегию так сложно.

Ну во-первых, вам нужно сделать всех участников достаточно продвинутыми в эпистемической рациональности, чтобы они могли свободно оперировать концепцией общего знания и размышлять в терминах теории игр.

Во-вторых, сделать что бы то ни было общим знанием - уже очень сложная задача. Даже если вы сказали, что X верно, то мало того, чтобы все это услышали и поверили в это. Нужно, чтобы все убедились, что это услышали и в это поверили (далее “поверили” я буду опускать для краткости) остальные; и что все поняли, что это услышали остальные; и что все поняли, что все осознали, что это услышали остальные - и так далее, в идеале до бесконечности. Примерно как в примере про Алису, Боба и чайник в моей первой статье о теореме Ауманна.

Но этого мало - нам ведь еще нужно убедиться, что никто из участников не будет испытывать соблазн пойти охотиться на кролика ни по каким причинам, за исключением теоретико-игровых (при том, что игроки могут не осознавать, что у них есть такие причины; либо не считать важным о них говорить; либо захотят скрыть их; либо вообще будут играть в другую игру - например, гонку на дно или бар Шеллинга; либо еще что-то). И затем всё это еще нужно будет сделать общим знанием.

Впрочем, как я уже упоминал, в ситуации, когда участники игры - это один и тот же человек в разные дни, ситуация становится гораздо проще: такие агенты могут довольно сильно доверять друг другу и при этом очень эффективно обмениваться информацией, устанавливая общее знание. И вообще, в этом случае понадобится сделать достаточно хорошим рационалистом всего одного человека.

Пример: полезная привычка

Итак, как же нам использовать описанную мета-стратегию охоты на оленя для того, чтобы установить себе ту или иную полезную привычку?

Для начала вам обычно потребуется довольно хорошо понимать, как работают разные рацио-штуки (если вы читаете эти строки, то, скорее всего, знаете по крайней мере одну хорошую стартовую точку для этого).

Затем, как следует освоившись в основах рациональности, мы начинаем создавать у себя в голове майндсет о том, как работают FDT-копии. Если у вас такового еще нет - как следует поразмыслите над следующими тезисами:

“Если в один день я сдамся, то в другой день в похожих ситуациях я тоже сдамся”;
“Завтрашний Я по умолчанию в точности идентичен Сегодняшнему Я; для того, чтобы они отличались, требуются существенные и обоснованные причины (как правило, таковыми являются внешние условия)”;
“В каждой ситуации выбора я принимаю решение не только за сегодняшний день, но и за все последующие похожие дни ⇒ я должен принимать решение исходя из того, какой выбор при многократном повторении мне более выгоден”;
“При этом если для успешной работы мне требуется обязательно использовать какой-либо ограниченный ресурс (например, силу воли), то не факт, что завтра он у меня будет (и Завтрашний Я будет действительно похож на Сегодняшнего Я - хоты бы по объему наличного ресурса)”;
“Завтрашний Я вряд ли сможет обмануть Сегодняшнего Я (например, переложив всю работу на него) - они оба примерно одинаково умны и неплохо знают повадки друг друга ⇒ мой план должен быть достаточно хорош, чтобы все мои копии (находящиеся в более-менее любых внешних обстоятельствах) могли ему следовать”.

Теперь, сформировав у себя довольно надежный майндсет (и, разумеется, разобравшись с тем, как работает охота на оленя), мы должны проверить, действительно ли мы будем в будущем обладать достаточными ресурсами, чтобы каждый день (или хотя бы в достаточной доле случаев) выбирать охоту на оленя. Если ответ отрицательный, то у нас есть два варианта - либо вовсе отказаться от всей этой затеи, либо принять меры к тому, чтобы обеспечить себя требуемыми ресурсами (заранее или по мере необходимости).

Для надежности стоит с помощью внутреннего симулятора проверить, действительно ли итоговый план, который мы составили, будет достаточно привлекательным для каждой нашей вариации (в предположении, что этот агент не будет одинок, а будет чувствовать, что все остальные его поддерживают).

Если ответ положительный, то, похоже, мы можем приступать к охоте - наши FDT-копии будут склонны делать тот выбор, который принесет племени наибольшую пользу.

Пример: большой проект

Вспоминая, что племенем в данном случае будет довольно большое сообщество, из которого вы хотите рекрутировать участников проекта или стартапа, мы видим, что данная мета-стратегия очень и очень плохо подходит для привлечения людей в стартап или крупный проект.

Достаточно уже того, что вам нужно сделать так, чтобы многие члены такого сообщества (зачастую - довольно случайные люди) всерьез заинтересовались рациональностью, взялись ее изучать, и в результате достигли значимого прогресса. Если изначально они ничего такого не планировали делать, подобная задача будет сродни подвигу (и если одного-двух человек еще можно целенаправленно очаровать и обучить рациональности, то провернуть такое сразу хотя бы с парой десятков - за гранью моего представления).

Ну, как я и говорил, далеко не всегда конкретная пара мета-стратегии и задачи дает удачное сочетание. В данном же случае они, увы, не подходят друг к другу вообще совсем никак.

Пример: концентрация сил рациональности

Здесь мы будем рассматривать максимально упрощенную задачу (потому что более сложная окажется столь же нерешаема, как и обозначенная в прошлом примере). А именно:

у нас есть сравнительно небольшое сообщество людей, уже интересующихся рациональностью;
при этом большинство участников согласно с тем, что было бы неплохо, если бы сообщество было устроено таким образом, чтобы максимально поощрять участников к развитию их агентности и эпистемологии;
в качестве решения задачи мы предлагаем “задать в сообществе максимально высокие стандарты рацио-общения и рацио-поведения; и сделать так, чтобы участники могли и хотели им следовать”.

Что нам потребуется, чтобы воплотить это решение в жизнь? Для начала нам нужно ознакомить всех участников с самими концепциями общего знания, FDT-копий и теории игр (в частности - с особенностями охоты на оленя). Учитывая, что по условию все здесь интересуются темой рациональности, им будет интересно по крайней мере начать разбираться в этом.

После того, как участники сообщества (как минимум - наиболее активное ядро) уже точно разобрались с тем, как устроены все эти концепции, мы озвучиваем им собственно решаемую задачу: “а давайте зададим в сообществе максимально высокую планку для эпистемологии и агентности участников, и будем ей следовать”. Вместе с самой задачей нужно озвучить и все относящиеся к ней шестеренки: как и почему это должно работать, к каким эффектам это должно привести, и почему это хорошо. Непосредственные подходы к решению можно пока не рассматривать.

Затем нужно добиться того, что все участники действительно понимают, почему решить задачу было бы действительно хорошо, и что они действительно хотят прийти к ее решению. Основная деятельность на этом этапе - обмен моделями, устранение недопонимания и разногласий.

И наконец, когда у нас есть общее знание о том, что все действительно хотят решить задачу, нам требуется получить общее знание, что она действительно будет решена. В частности, нужно будет убедиться, что:

все активные участники сообщества хорошо понимают, как осуществлять high-effort общение; как поддерживать высокий уровень эпистемической гигиены; как преодолевать стремление к пассивности, буде такое возникнет, и поддерживать высокий уровень агентности;
есть достаточно простые и понятные гайдлайны и рекомендации, которые облегчат применение этого на практике, и они доступны всем;
все члены племени обладают достаточными навыками и ресурсами для того, чтобы следовать этим гайдлайнам, а в идеале - выходить за их рамки для еще большей эффективности;
все активные участники сообщества осознают, что для успешной охоты на оленя каждому из них придется лично соответствовать всем высоким стандартам и энергично вкладываться в достижение общей цели;
ни у кого из членов племени нет никаких других неосознаваемых (поможет внутренний симулятор и премортемы aka мёрфиджитсу), непроговариваемых (вероятно, из-за иллюзии прозрачности, бороться с которой можно, например, явно проговаривая самые очевидные моменты) или скрываемых (гм, взаимный перекрестный допрос в помощь?..) причин не следовать алгоритмам и рекомендациям (будем считать, что хотя бы случай “не захочу решать задачу” мы отсекли на предыдущих этапах).

В таких условиях у вас появится общее знание о том, что все члены племени действительно хотят, могут и будут стремиться к high-effort общению и высокой агентности.

Продолжение следует...

Поскольку полный текст статьи оказался слишком велик для Телеграфа, то продолжение опубликовано отдельной статьей.

Эта статья в моем телеграм-канале: https://t.me/bayesian_little_list/25