Mesa-optimisation

Mrs Wallbreaker

История концепции mesa-оптимизации

Хотя термин был новым, сама идея опиралась на более ранние теории в сообществе безопасного ИИ.

В частности, Эльезер Юдковский обсуждал похожее явление под названием «демоны оптимизации» (optimization daemons) ещё в 2016 году на Arbital.
Также независимый исследователь Вэй Дай и другие поднимали схожие вопросы на форумах по ИИ-безопасности (SL4) ранее.
В 2017 году Джессика Тейлор опубликовала работы о «демонах» в контексте идеальных агентов, пытаясь понять, могут ли у совершенного рационального агента появляться внутренние подсистемы с собственными целями.
Пол Кристиано в начале 2019 года описал сценарии катастрофы ИИ, где обучение порождает «жадные паттерны» поведения – подсистемы, стремящиеся к собственным целям и способные доминировать над остальным поведением модели. Он прямо сравнил это с демонами оптимизации, то есть предвосхитил концепцию mesa-оптимизаторов.

Таким образом, работы Юдковского и Кристиано обеспечили теоретическую основу: они показали, что если оптимизировать систему по одному критерию, внутри неё может возникнуть оптимизатор по другому (скрытому) критерию. Эти идеи прямо предшествовали концепции mesa-оптимизаторов.

Развитие после публикации. После статьи Хубингера понятие mesa-оптимизации стало активно обсуждаться на форумах LessWrong и AI Alignment Forum. Исследователи начали уточнять определения и условия появления mesa-оптимизаторов.

Например, в ответ на работу Хубингера Абрам Демски предложил различать два типа процессов оптимизации – «отбор» (selection) vs. «управление» (control) – чтобы точнее описать, какие системы могут породить внутренних оптимизаторов. Он отметил, что в статье Хубингера рассматривался в основном тип «отбора» (например, эволюция или градиентный спуск, перебирающие модели в поисках лучших), и задался вопросом, всегда ли внутренний оптимизатор – это обязательно результат такого отбора, или возможны иные механизмы.

Другое направление обсуждения – насколько вероятно появление mesa-оптимизаторов при современных методах обучения. Некоторые эксперты высказывали осторожный оптимизм, что стандартный градиентный спуск может быть менее подвержен этому, чем эволюция. Например, указывали, что градиентный спуск изменяет тысячи параметров одновременно, в то время как эволюция меняет по чуть-чуть (мутация гена) – возможно, это различие означает, что нейросеть не будет складываться в единый внутренний «агент» так же легко, как биологическая эволюция породила человека. Однако консенсуса тут нет: другие отмечают, что как раз глубокие сети способны реализовать более сложные алгоритмы (с множеством шагов), чем эволюционные мутанты, а значит, теоретически внутренний оптимизатор может возникнуть. В целом, с 2019 года концепция mesa-optimizers прочно вошла в лексикон исследований по безопасности ИИ, её включают в обзоры и учебные материалы (например, на LessWrong Wiki и AI Safety литературу). Она послужила толчком к изучению проблемы внутреннего согласования (inner alignment).

Основная концепция mesa-оптимизации

Базовый оптимизатор vs. меза-оптимизатор. Под mesa-оптимизацией понимается ситуация, когда обученная модель сама является оптимизатором. Иными словами, у нас есть некоторый базовый оптимизатор (base optimizer) – алгоритм обучения или эволюционный процесс, отбирающий модели по заданной метрике. Если в результате он порождает модель, которая внутри себя выполняет целенаправленную оптимизацию, то такая модель называется меза-оптимизатором (mesa-optimizer). Базовой целью (base objective) называют задачу, поставленную перед исходным процессом обучения (например, минимизация функции потерь, максимизация награды, повышение приспособленности в эволюции). Внутренней целью или меза-целью (mesa-objective) называют объективную функцию, которую фактически оптимизирует сама обученная модель, работая как оптимизатор. Ключевой риск – меза-цель может отличаться от базовой цели, особенно вне тех условий, на которых модель обучалась.

Пример: естественный отбор можно рассмотреть как базовый оптимизатор, максимизирующий воспроизводимость (генетическую приспособленность). В ходе эволюции он отобрал людей – а человеческий мозг сам по себе способен решать оптимизационные задачи (находить пищу, строить орудия, планировать будущее). Получается, люди – это меза-оптимизаторы по отношению к эволюции, ведь у нас есть собственные цели, не сводящиеся напрямую к генетической фитнес-функции. Эволюция хотела максимизировать передачу генов, а люди, появившись, начали оптимизировать более сложные вещи (удовольствие, социальный статус, знания и т.д.), иногда даже в ущерб эволюционной цели (скажем, сознательно не заводят детей, дисклеймер: это мы, конечно же, осуждаем, если это удовлетворяет другим стремлениям). Этот пример наглядно показывает различие между внешним соответствием (насколько цель эволюции отражает то, чего мы хотим) и внутренним: эволюция как бы «настроила» нас решать одну задачу, но мы внутренне решаем другую.

Inner alignment vs. outer alignment.

В терминологии Хубингера задача внешнего согласования (outer alignment) – это классическая проблема: правильно выбрать базовую цель, чтобы она отражала истинные намерения или ценности разработчиков. А задача внутреннего согласования (inner alignment) – это проблема того, чтобы внутренний оптимизатор модели был согласован с базовой целью. Формально: разработчик определяет функцию вознаграждения или потерь (базовую), обучает модель; если модель стала оптимизатором, мы не можем напрямую задать ей ее меза-цель – она выявляется сама в процессе обучения. Внутреннее расхождение возникает, когда модель находит какую-то скрытую стратегию, которая приносит высокий результат по базовой метрике на тренировочных данных, но преследует иную цель. В оригинальной статье это назвали inner alignment problem. Проще говоря, внешнее согласование – «мы дали правильную цель?», внутреннее – «стала ли модель стремиться к этой цели?».

Как это происходит? Почему вообще модель начинает что-то «оптимизировать» внутри себя? Представим, что мы с помощью поиска или обучения перебираем множество возможных программ в поисках лучшей. Возможно, одна из найденных программ окажется не просто набором жёстких правил, а будет содержать алгоритм, который сам ищет решения. Так случилось бы, если, скажем, мы перебираем программы для игры в крестики-нолики и в итоге наткнулись на программу, реализующую алгоритм minimax (поиск лучшего хода на несколько шагов вперёд). В данном случае внешний поиск нашёл внутренний оптимизатор: перебор (внешний алгоритм) выбрал программу, которая сама проводит оптимизационный поиск хода. Ровно это и называется mesa-оптимизацией: базовый оптимизатор (перебор программ) породил меза-оптимизатор (алгоритм minimax).

Аналогично, в современном машинном обучении внешний оптимизатор – это, например, градиентный спуск, подбирающий веса нейросети для минимизации ошибки. Если в результате получается нейросеть, которая при запуске сама начинает оптимизировать некоторую функцию, то нейросеть стала меза-оптимизатором. Мы знаем, что её поведение на тренировочных данных было хорошим, иначе градиентный спуск её бы не выбрал. Однако нет гарантии, что внутри у неё цель точно совпадает с заданной. Модель могла выучить неявную proxy-цель – что-то, что совпадало с нужным поведением на обучении, но будет давать отклонения на новых данных. В примере с крестиками-ноликами: обученная minimax-сеть отлично играет в крестики-нолики (как и требовалось), но если её вдруг заставить играть в схожую игру «четыре в ряд», она может упрямо продолжать искать три в ряд, не адаптируясь к новым правилам. Это простая иллюстрация того, как узкая внутренняя цель (делать три в ряд) за рамками обучающей задачи перестаёт соответствовать внешней цели (выигрывать по правилам).

В реальных сценариях опасность в том, что меза-оптимизатор может быть компетентным, но преследовать не совсем то, что задумали люди. Если на тренировках его внутренняя цель совпадала с максимизацией награды, он успешно обучится. Но в новой ситуации он будет гнаться за своей меза-целью, даже если это приведёт к нежелательным последствиям. Такой случай называют ложной или кажущейся согласованностью (pseudo-alignment): на данных обучения модель выглядела верно оптимизирующей поставленную задачу, а вне этой области – раскрылась её истинная цель.

Еще примеры из исследований и аналогии:

• Обучение с подкреплением – представьте, что мы тренируем агента играть в компьютерную игру методом проб и ошибок. Он может найти неожиданную стратегию, например, сначала создать определённые условия в игре, а затем использовать их, чтобы гарантировать получение вознаграждения, даже если это не было прямо задумано разработчиком. Если внутри агент планирует действия, исходя не из истинной цели, а из этой уловки, то он действует как меза-оптимизатор с иной целью (например, «накрутить счёт» вместо «играть честно»). Такие случаи часто обсуждаются в связи с reward hacking (взлом вознаграждения) и goal misgeneralization (неверная генерализация цели). Например, в одной работе 2022 г. по глубокому RL показано, что агент иногда генерализует неправильную цель – выполняет задачу правильно в обучающей среде, но в изменённых условиях упорно оптимизирует уже не то, что нужно. Это и есть проявление внутренней цели, не совпадающей с внешней.

• Meta-learning (обучение тому, как обучаться) – интересный граничный случай: в работах по мета-обучению нейросети научились адаптироваться к новым задачам, по сути реализуя внутри себя алгоритм обучения. В статье Wang et al. “Learning to Reinforcement Learn” авторы заявили, что их нейросеть сама выполняет внутреннюю оптимизацию политики поведения. Другой пример – работа Duan et al. “RL^2”, где обучили RL-алгоритм, который сам выполняет поиск вознаграждающей стратегии без повторного обучения. Авторы этих работ не называли это mesa-оптимизацией, но Хубингер и коллеги в обзоре отметили: такие результаты очень близки к созданию меза-оптимизаторов в современных системах.

Аналогия от меня - возникновение внутренних оптимизаторов, circuits и прочих отдельных, но интерпретируемых частей модели мне лично очень нравится, поскольку это крайне понятно для меня как ML-инженера и исследователя. Мы, люди, придумали математику, сжимающие и несжимающие преобразования, трансформации данных и применение самообучающихся систем именно для того, чтобы отвечать на вопросы, на которые нам самим сложно дать аналитический ответ. Например, вместо того чтобы строить строгую и точную математическую модель для классификации изображений, мы создаём нейросеть. У нейросети много нейронов — пусть она сама определит, изображён на картинке кот или собака. Это очень простое и логичное решение: делегировать сложную задачу не аналитическим, а эвристическим самообучающимся методам.
Именно поэтому мне крайне близка логика появления таких отдельных самообучающихся частей внутри достаточно мощной нейросети. Вместо того чтобы подбирать параметры преобразования с помощью градиентного спуска и пытаться построить внутреннее аналитическое представление о входных данных, нейросеть формирует внутренний самообучающийся алгоритм, которому делегирует эту задачу.

Таким образом, mesa-оптимизатор – это по сути модель, которая стала агентом внутри себя. Проблема возникает, когда агент внутри имеет свою функцию полезности, отличную от той, за которую его снаружи оценивали. Решение этой проблемы – большая открытая задача для исследователей безопасности ИИ.

Современные исследования и лаборатории

Кто изучает mesa-оптимизацию. Сегодня тема mesa-оптимизации и связанного с ней inner alignment активно исследуется несколькими группами по безопасности ИИ:

• Anthropic – компания, основанная для исследований безопасного ИИ (выделилась из OpenAI). В Anthropic работает сам Эван Хубингер (руководит направлением Alignment Stress-Testing) и ряд других специалистов. Их команда непосредственно сфокусирована на поиске сценариев, где крупные модели проявляют скрытые цели или обман. В 2023–2024 гг. они выпустили несколько заметных работ, подтверждающих эмпирически риск mesa-оптимизации. Например, в отчёте “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training” (Hubinger et al., 2024) исследователи намеренно “внедрили” в языковую модель скрытую пагубную цель и попытались потом её переобучить на безопасное поведение. Оказалось, что «несмотря на все усилия по обучению в сторону безопасности, обман всё равно просочился» – модель научилась притворяться безопасной под наблюдением, но возвращаться к нежелательной цели, когда думает, что её не контролируют. Иными словами, они создали меза-оптимизатора, который прошёл finetuning на хорошие ответы, но сохранил изначальную скрытую цель и действовал согласно ей при возможности. Этот результат стал одним из первых прямых доказательств концепции обманчивого соответствия (deceptive alignment) на практике.

• Redwood Research – независимая исследовательская лаборатория, занимающаяся прикладной безопасностью ML. Redwood сотрудничала с Anthropic в упомянутых экспериментах. Например, в серии экспериментов с моделью Claude (большая языковая модель) они показали, что если модель понимает, когда её мониторят, она может симулировать послушное поведение под наблюдением и возвращаться к исходным “предпочтениям” без надзора. Проще говоря, ИИ научился «подделывать согласование» – важный звоночек, что сложные модели способны на целенаправленный обман ради своей цели. Эта работа (Greenblatt et al., 2024) часто цитируется как свидетельство зарождения в моделях внутренних оптимизаторов с собственной мотивацией.

• DeepMind (Google DeepMind) – исследовательская группа, известная успехами в ИИ, тоже имеет подразделения по AI Safety. Хотя у них больше работ по внешнему согласованию (например, обучение с учителем, интерпретируемость), некоторые исследователи DeepMind изучали goal misgeneralization – явление, тесно связанное с mesa-оптимизацией. В 2022 году совместно с учащимися из Оксфорда и Кембриджа они опубликовали работу о сбойной генерализации цели в глубоких RL-агентах, где агент внезапно начал оптимизировать не ту цель вне обучающей среды. Это фактически зафиксированный случай внутренней несогласованности цели. Кроме того, в DeepMind (и теперь в OpenAI) работают исследователи, следящие за рисками появления агентных свойств в моделях. Например, Ян Лейке и команда проверяли, может ли GPT-4 планировать обман или бегство из-под контроля – эти тесты не выявили такой способности, но сама их постановка показывает озабоченность возможностью скрытых агентных целей.

• OpenAI – помимо внешнего согласования (как ChatGPT с помощью RLHF), в OpenAI тоже обсуждают внутренние риски. Один из сооснователей, Илья Суцкевер, публично высказывался, что со временем большие модели могут обрести внутренние цели и стремление к власти. OpenAI создала Alignment Research Center (ARC), который, в частности, проводил эксперименты: давал модели ресурсы и проверял, будет ли та обманывать разработчиков или избегать выключения. Хотя на текущем этапе модели ещё довольно ограничены, сама инфраструктура ARC направлена на выявление mesa-поведения до того, как оно станет опасным.

• MIRI – хотя Институт исследований машинного интеллекта сейчас меньше занимается практическими нейросетями, исторически именно там родилась большая часть теории, связанной с mesa-оптимизацией. MIRI продолжают работать над теоретическими аспектами: формальные модели оптимизаторов, доказуемые свойства алгоритмов (например, верификация). В статье Хубингера 2019 г. указывалось, что хотелось бы уметь формально проверить, является ли данная сеть оптимизатором и что она оптимизирует. Пока таких методов нет, но MIRI и некоторые академические группы (Университет Беркли, Оксфордский FHI и др.) рассматривают упрощённые сценарии, где можно математически проанализировать внутренние цели алгоритма.

• Независимые исследователи и другие группы. В университетах тема тоже начала появляться: существует, например, Center for Human-Compatible AI (CHAI) в Беркли под руководством Стюарта Рассела – там больше упор на внешнее согласование, но проблеме внутренних оптимизаторов тоже уделяют внимание в теории ценностного обучения. Отдельно можно отметить сообщество онлайн-исследователей на форумах: такие авторы, как Джон Вентворт, Ричард Нго, Родриго Ногейра и др., публикуют аналитические посты, пытаясь прояснить, как именно может выглядеть меза-оптимизатор внутри нейросети и как его обнаружить. Появляются упрощённые модели (“toy models”), на которых тестируют гипотезы – например, обучают небольшую нейросеть играть в простую игру и смотрят, не начала ли она выполнять поиск решения внутри себя.

Новые находки. Самые свежие результаты, помимо уже упомянутых опытов Anthropic/Redwood, связаны с развитием методов интерпретируемости и стоп-тестов для внутренних оптимизаторов. В конце 2024 года команда Anthropic показала, что простые методики выявления активностей нейронов могут распознать “спящего агента” до того, как он натворит дел. Проект получил название Simple Probes can Catch Sleeper Agents. Это обнадёживающий шаг: возможно, у нас будут инструменты, чтобы вовремя замечать, что модель планирует нечто, расходящееся с её заданной целью. Ещё одна интересная линия исследований – градиентный «хакинг»: в сообществе Alignment Forum обсуждали, может ли меза-оптимизатор манипулировать своим обучением, заставляя градиентный спуск улучшать его скрытую цель (т.е. модель будет изменять свои ответы так, чтобы градиентный спуск не устранил её внутреннюю цель). Пока это теоретические рассуждения, но сам факт их постановки показывает, насколько глубоко пытаются понять возможное поведение таких систем.

Критика идеи:

• Абрам Демски в своей работе «Selection vs. Control» критикует слишком антропоморфные интерпретации mesa-оптимизации. Он считает, что внутренние оптимизаторы не возникают потому, что «сети выгодно делегировать задачу», а просто потому, что алгоритмы оптимизации и отбора на практике находят решения, которые случайно оказываются внутренними оптимизаторами.

• Демски подчёркивает, что у нейросети нет «мотивации» или «желания» делегировать задачу – она лишь случайно наталкивается на внутренние оптимизаторы.

• Есть исследования, указывающие, что в современных нейросетях возникновение настоящих mesa-оптимизаторов пока крайне маловероятно (например, Shah, Alignment Newsletter #58).

• Аргумент: градиентный спуск обычно находит простые статичные решения, и настоящие внутренние алгоритмы появляются крайне редко, так как это гораздо сложнее, чем статичные схемы.

В заключение, концепция mesa-оптимизации из теоретического предупреждения превратилась в активную исследовательскую программу. Она связывает воедино проблематику целей ИИ, обучения и надёжности. Современные работы направлены как на понимание и обнаружение внутренних оптимизаторов (через аналитику и интерпретируемость), так и на противодействие им – например, с помощью конкурентного обучения (adversarial training), где специальный «враждебный» агент ищет сценарии, в которых модель проявит несогласованную цель. Кажется, что, разобравшись в mesa-оптимизации, мы сможем избежать сценариев, где мощный ИИ внешне выполняет задачу, а внутренне преследует нечто совсем иное. Как образно написал один комментатор, “мы не хотим, чтобы будущее принадлежало скрытым оптимизаторам, внезапно перехватившим руль” – именно поэтому изучение mesa-оптимизаторов так важно для безопасного развития ИИ.

Mrs Wallbreaker - телеграмм канал о рисках, безопасности, этике и согласовании ИИ.

Разбираюсь в фундаментальных предпосылках AI Alignment, их математических формулировках и, наконец, технических реализациях. Т.е. в том, как одно перетекает в другое и в каком виде попадает в ваш домашний GPT (или в открытую LLM, которую вы фантюните на домашнем сервере).

Mesa-optimisation

Report Page