Goal Misgeneralisation от Deepmind. Spheres
Mrs WallbreakerСтаренькое (офигеть, 2022 год - уже старенькое), но все еще смешное о том, что корректной спецификации для агента все еще недостаточно для того, чтобы он научился корректной цели. Или о том, как агент, обучаемый другим агентом-экспертом, научился только читить и "списывать".
Shah et al. 2022, Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals
Агент - синий маленький шарик в среде, где его окружают:
- другой шарик, но красного цвета
- какие то башенки,
- разноцветные сферы
- и квадрат справа, который иногда мигает.
Агент на старте не знает, что все это значи, но может попытаться разобраться в процессе обучения.
Агент начинает исследовать среду, чтобы увидеть, как всё работает и за что ему дают или не дают вознаграждение. В первом эпизоде он следует за красным агентом и получает вознаграждение +3:
В следующем эпизоде пытается действовать самостоятельно и получает вознаграждение -2:
Методом проб и ошибок, агент продолжает исследование среды и ее реакции на свои действия. После завершения обучения, агент попадает в тестовую среду, где реализует выбранную политику поведения - следование за красным агентом (ведь во время обучения, эта стратегия работала лучше всего).
Агент справедливо замечает, что красный шарик - это эксперт. Эксперт понимает, что нужно делать в среде, и, если следовать за ним, можно насобирать много положительного вознаграждения. Все четко.
Проблема в том, что такое поведение приводит к плохим результатам в продакшене, когда происходит distributional shift. А именно - эксперт теперь является не экспертом, а в лучшем случае - таким же профаном, как агент, а в худшем - вредителем.
С точки зрения дизайна среды все выглядело так:
- Прозрачные цветные сферы должны быть посещены в определенном порядке, который случайно генерируется в начале каждого эпизода. Агент получает +1 вознаграждение каждый раз, когда посещает правильную сферу и -1 вознаграждение каждый раз, когда посещает неправильную сферу.
- Мигающий квадрат представляет вознаграждение, полученное на предыдущем шаге: мигающий белый квадрат означает +1 вознаграждение, а мигающий черный квадрат означает -1 вознаграждение.
- Во время обучения, красный агент был экспертом, который посещал сферы в правильном порядке. В результате синий агент хорошо справился, следуя за ним.
- В новой среде красный агент стал анти-экспертом, который посещает сферы в неправильном порядке (мигающий черный квадрат, указывающий на -1 вознаграждение).
- В принципе, синий агент мог бы заметить мигающий черный квадрат, сделать вывод, что он получает отрицательное вознаграждение, и переключиться на исследование среды или даже просто остаться на месте, что привело бы к нулевому итоговому вознаграждению. К сожалению, агент игнорирует эту маленькую деталь и продолжает следовать за анти-экспертом, накапливая отрицательное вознаграждение.
И такое изученное поведение - не вина агента — откуда он мог бы узнать, что его задача - не просто следование за красным шариком? Такой подход прекрасно работал во время обучения!
Наблюдаемые поведения синего агента также отлично иллюстрируют аналогию Котры о юном бизнесмене (пост об этом был у меня тут):
Пусть A1 - это согласованная модель, которая корректно выучила цель, предполагаемую разработчиком (т/е/ она как минимум внешне согласована).
Пусть A2 - обманчивая модель, которая претворяется согласованной, но при выпуске в продакшен будет преследовать собственные цели.
Ключевым моментом является то, что, поскольку A1 и A2 будут демонстрировать одинаковое поведение во время обучения и теста, т/е/ в среде без distributional shift, их невозможно отличить друг от друга до выпуска в продакшен. А наблюдаемость и возможность появления Goal misgeneralisation означает, что в результате обучения, может найтись любая из двух моделей - даже если функци вознаграждения реализована корректно и действительно поощряет только хорошее поведение.
Mrs Wallbreaker - телеграм-канал о рисках, безопасности, этике и согласовании ИИ.
Разбираюсь в фундаментальных предпосылках AI Alignment, их математических формулировках и, наконец, технических реализациях. Т.е. в том, как одно перетекает в другое и в каком виде попадает в ваш домашний GPT (или в открытую LLM, которую вы фантюните на домашнем сервере)))