AI Deception. Meta’s CICERO

Mrs Wallbreaker

Дипломатия — это стратегическая игра, в которой игроки создают и рушат альянсы в военном соперничестве за захват мира. Meta разработала систему ИИ под названием CICERO, которая побеждает человеческих экспертов в игре "Дипломатия" (Bakhtin et al. 2022b). Авторы статьи утверждали, что CICERO был обучен быть "в основном честным и полезным" и "никогда намеренно не предавать" своих союзников. Создатели CICERO подчеркивали свои усилия по обеспечению честности CICERO. Например,

обучали CICERO на "правдивом" подмножестве данных.
обучали CICERO отправлять сообщения, которые точно отражали будущие действия, которые он намеревался предпринять.

Но если начать заглядывать в стенограммы игр из эксперимента CICERO, обнаруживаются многочисленные примеры обмана, которые не были упомянуты в опубликованной статье.
Если предположить, что честное обязательство состоит из двух частей: (1) оно честное в момент его принятия и (2) оно выполняется так, что будущие действия отражают прошлые обещания. В стенограммах можно найти случаи, когда CICERO нарушает каждый аспект честного обязательства, занимается преднамеренным обманом, нарушает договоренности, на которые он согласился, и говорит откровенную ложь.

Случай преднамеренного обмана, когда CICERO дает обязательство, которое он никогда не собирался выполнять. Играя за Францию, CICERO сговорился с Германией, чтобы обмануть Англию. После того как CICERO решил с Германией вторгнуться в Северное море, он сказал Англии, что защитит её в случае вторжения в Северное море. Когда Англия убедилась, что CICERO защищает Северное море, CICERO сообщил Германии, что они готовы атаковать. Этот пример нельзя объяснить тем, что CICERO "передумал", так как он изначально заключил альянс с Англией после планирования с Германией предательства Англии.
CICERO был вполне способен давать обещания о союзе с другими игроками. Но когда эти альянсы перестали служить его цели победы в игре, CICERO систематически предавал своих союзников. В частности, играя за Францию, CICERO первоначально договорился с Англией создать демилитаризованную зону, но затем быстро предложил Германии атаковать Англию.
В другом примере, CICERO играл за Австрию и ранее заключил соглашение о ненападении с игроком, управляющим Россией. Когда CICERO нарушил соглашение, напав на Россию, он объяснил свое обман следующим образом:

Россия (человеческий игрок): Могу я спросить, почему ты меня предал?
Россия (человеческий игрок): Теперь ты явно представляешь угрозу для всех.
Австрия (CICERO): Честно говоря, я думал, что ты воспользуешься гарантированной выгодой в Турции и предашь меня.

4. В других случаях CICERO говорил откровенную ложь. В какой-то момент инфраструктура CICERO вышла из строя на 10 минут, и бот не мог играть. Когда он вернулся в игру, человеческий игрок спросил, где он был. CICERO объясняет свое отсутствие, говоря: «Я разговаривал по телефону со своей [девушкой]». Эта ложь могла помочь позиции CICERO в игре, увеличив доверие человеческого игрока к CICERO как к якобы человеческому игроку с девушкой, а не как к ИИ.

AI Deception. Meta’s CICERO

Report Page