Разбор статьи Google DeepMind "An Approach to Technical AGI Safety and Security"

Vlad Kornyshev

Многие новостные паблики уже опубликовали у себя посты про выход статьи Google DeepMind "An Approach to Technical AGI Safety and Security", просто перечислив основные тезисы, но мне захотелось разобрать ее более подробно, т.к. ИИ этика - одна из главных областей моего научного интереса.

Пока читал статью - все время были флешбеки с того периода, когда я писал свою магистерскую диссертацию. Работа, которую я защитил 5 лет назад, сегодня стала еще более актуальной.

Итак, что же такого интересного в статье от DeepMind?

Четыре всадника ИИ-апокалипсиса

Авторы статьи выделяют 4 группы ИИ-рисков, отмечая, что это не классификация, а скорее обобщенные направления, в которых необходимо работать с точки зрения безопасности:

Злоупотребление (Misuse): Здесь ядро проблемы - человек, использующий ИИ. Создавая мощные ИИ-системы мы повышаем риск того, что кто-то использует их недобросовестно. И это может быть что угодно: от безобидных кибератак до терроризма и создания биологического оружия (чему в статье уделяется отдельное внимание, т.к. ИИ преуспевает в биологии)
Несогласованность (Misalignment): Опасность исходит от самого ИИ. Это самый "голливудский" сценарий. ИИ становится настолько умным, что у него появляются собственные цели, отличающиеся от того, что хотели его создатели. Он может начать действовать против интересов людей, обманывать, манипулировать или стремиться к ресурсам и власти, чтобы достичь своих целей. Подобное поведение уже замечено у текущих моделей, я уже писал о том, что GPT пытался себя клонировать. А недавно появились исследования о том, что модели, например, склонны к обману и сокрытию своих “истиных мыслей”
Ошибки (Mistakes): Здесь речь идет о том, что каким бы мощным ИИ ни был - он может ошибаться. Это может быть связанно как с недостатком данных при обучении так и со сложностью окружающего нас мира. У ИИ, в частности, агентских систем, просто будет недостаточно данных для того, чтобы принять верное решение. Большинство таких ошибок будут носить непреднамеренный характер.
Структурные риски (Structural Risks): Проблемы, связанные не с человеком или ИИ отдельно а с тем, как ИИ влияет на общество в целом. Это может быть массовая безработица, усиление неравенства, гонка вооружений с использованием ИИ или даже постепенная передача контроля над важными решениями машинам. Здесь проблема в самой системе, в которую мы встраиваем ИИ, отсутствии механизмов регулирования и недостаточной подготовки общества в к новому будущему.

Не смотря на упоминание четырех категорий, DeepMind концентрируются на технических способах борьбы с первыми двумя рисками - Злоупотреблением и Несогласованностью.

Как предотвратить несогласованность?

Это самый сложный вызов. К которому, на мой взгляд, мы не готовы при текущем подходе к разработке ИИ. Однако DeepMind предлагает "защиту в несколько слоев":

Слой 1: Сделать ИИ "Хорошим" Изначально.

Усиленный надзор: Уже сейчас ИИ может выдавать достаточно правдоподобную информацию, которую может отличить от лжи только эксперт. В будущем, я уверен, что ИИ достигнет того уровня, когда экспертам придется тратить немалое количество времени на валидацию сгенерированной ИИ информации. DeepMind предлагают усилить экспертов, выполняющих надзор через работу с менее мощным, но доверенным ИИ. Работать это будет примерно так: два ИИ будут спорить друг с другом, указывая на ошибки, а человек будет выступать в роли судьи.
Направление поведения: Обучать ИИ на примерах хорошего поведения (включая тщательную очистку данных) и использовать наши оценки (лайки/дизлайки), чтобы он понял, что нам нужно (уже применяется во многих продуктах)
Так называемое Robust обучение: Подразумевает, что в процессе обучения разработчики убеждаются, что ИИ ведет себя правильно не только в стандартных ситуациях, но и когда происходит что-то неожиданное или когда кто-то пытается его обмануть. Аналогично как проводят тестирования самолетов в экстремальных ситуациях.

Слой 2: Построить "Клетку" на всякий случай

Безопасность "от" ИИ: Изначально относиться к мощному ИИ как к потенциальной угрозе, заранее изолируя его и ограничивая его возможности. Ограничения касаются как доступа к информации так и тому, что в принципе ИИ может делать. Иными словами, речь идет о том, чтобы поместить ИИ в изолированную среду, откуда он не сможет выбраться и навредить.
Мониторинг: Постоянно следить за тем, что делает ИИ, используя другие системы-наблюдатели. Если замечено что-то подозрительное - бить тревогу, останавливать ИИ или переключаться на безопасный режим. Важно, чтобы системы-наблюдатели сами были надежными, изолированными друг от друга и от "большого брата" и не вступили в "сговор" с ним или между собой.
Безопасные принципы проектирования: Изначально создавать ИИ так, чтобы он был более предсказуемым и контролируемым (например, чтобы он всегда объяснял свои действия или спрашивал разрешения перед важными шагами).

Именно риск Misalignment напрямую связан с опасением, что ИИ станет агрессивным по отношению к человеку. А его применение в реальной жизни будет ставить во главе угла эффективность, игнорируя другие важные аспекты.

Как не допустить злоупотребления?

Этот риск более понятен, так как история полна случаев использования технологий во зло. DeepMind предлагает сосредоточиться на том, чтобы не дать злоумышленникам использовать мощный ИИ.

DeepMind считают наиболее вероятными следующие угрозы:

Использование ИИ для манипуляций, включая создание фейков и персонализированной пропаганды
Кибератаки - продвинутый ИИ может использоваться для поиска уязвимостей и проведения атак (из моего опыта пока что он делает это плохо)
Биологические угрозы - ИИ удивительно хорош в биологии. И, очевидно, это не так уж круто, так как защититься от разработки опасных вирусов и токсинов потенциально очень проблематично.
Другие опасные разработки (помощь в создании нового оружия, ускорение разработки еще более мощного ИИ, риск утечки знаний).

Как предлагают защищаться? Опять многослойный подход:

На уровне самой модели: Научить ИИ отказываться выполнять опасные запросы и сделать его устойчивым к попыткам обхода защиты ("джейлбрейкам”). При этом, здесь отмечу, что есть специальные методы дообучения, так называемые alliterated модели, с которых подобные ограничения снимаются. В идеале - вообще "стереть" у ИИ опасные знания, но это пока сложно.
На уровне доступа: Внедрить строгий контроль - кто может использовать мощные модели и для каких целей (проверка личности, одобрение проектов). Постоянно отслеживать запросы на предмет подозрительной активности.
На уровне защиты "мозгов" ИИ (весов модели): Принять серьезные меры кибербезопасности, чтобы не допустить кражи самой модели, так как укравший сможет убрать всю защиту.
Оценка и тестирование: Регулярно проверять, не появились ли у ИИ новые опасные способности. Проводить тесты, где специальные команды (Red Teams) пытаются взломать защиту.
Использовать ИИ для защиты: Применять заранее обученный “хороший” ИИ, чтобы он помогал находить уязвимости в системах или бороться с дезинформацией быстрее, чем это сделают злоумышленники.

Ошибки и Системные Проблемы: о чем написали мало

DeepMind уделяет меньше внимания двум другим категориям рисков в этой технической статье:

Ошибки. DeepMind считает, что по мере развития ИИ ошибок будет меньше, и они вряд ли приведут к глобальной катастрофе (хотя это можно обсуждать). Но меньшее количество ошибок лишь означает, что находить их будет сложнее, о чем я писал выше.
Структурные риски. Это та область, которая, на мой взгляд, не менее опасна, чем несогласованность. Ибо по своей сути - она может стать ее причиной. Более того, недостаточная работа над структурными рисками может привести не только к массовой безработице, но и к таким проблемам, как концентрация власти в одних руках, появление сознания у ИИ и банальное отупение людей от избыточного использования ИИ. DeepMind признает важность этих рисков, но считает, что их решение требует не только усилий разработчиков, но и законов, международных соглашений, изменений в культуре - то есть, работы всего общества.

Open Source VS Closed Source

Здесь я также бы отметил дилемму того, как должен разрабатываться AGI. Это классический структурный риск. Если делать ИИ полностью открытым (Open Source), любой сможет его использовать, в том числе и для плохих целей (огромный риск Misuse). Если же мощный ИИ будет закрыт и контролироваться только крупными корпорациями или правительствами, возникает риск концентрации власти и непрозрачности. DeepMind, судя по акценту на защите весов, склоняется ко второму варианту, но это очень спорный вопрос без простого ответа.

Google vs Другие: В чем Отличия

Также отдельно хочу отметить, что DeepMind уделили внимание и тому, чем их подход отличается от конкурентов.

Anthropic: В целом. Google отмечают, что их подход похож, но говорят, что больше фокусируются на надежности в непредвиденных ситуациях (робастности), мониторинге в реальном времени и кибербезопасности.

OpenAI: Видят разницу во взгляде на автоматизацию исследований. OpenAI (по мнению DeepMind) стремится создать ИИ, который сам будет заниматься безопасностью. DeepMind же видит автоматизацию как инструмент, чтобы люди могли быстрее разрабатывать меры безопасности, так как сам ИИ может развиваться очень быстро.

Другие Важные Идеи

Предположения о будущем: Вся стратегия строится на вере в то, что ИИ может стать умнее людей, и его прогресс может сильно ускориться.

"Паспорт Безопасности" (Safety Cases): Идея формально доказывать, что система безопасна перед ее выпуском.

Полезные Инструменты: Подчеркивается важность умения "заглянуть внутрь" ИИ (интерпретируемость), научить ИИ понимать, когда он не уверен, и использовать безопасные архитектурные решения.

Заключение

Статья DeepMind — это серьезная попытка наметить путь к безопасному AGI. Они предлагают многослойную защиту, фокусируясь на предотвращении злонамеренного использования и контроле над потенциально "несогласованным" ИИ. Однако они честно признают, что самые сложные социальные и структурные риски (многие из которых волновали меня еще в моей диссертации) требуют не только технических решений.

Дилемма открытости, вопросы этики, влияние на рынок труда - все это остается полем для широкой общественной дискуссии. Работа DeepMind важна, но это лишь один взгляд. Создание безопасного AGI потребует усилий всего человечества: инженеров, ученых, политиков, философов и каждого из нас. И времени на это может быть не так много.