Моральный автопилот ИИ

При выборе ИИ-агентов важна не только их интеллектуальная мощность, но и заложенный в них режим допустимого действия

Представьте себе совершенно обычную корпоративную ситуацию.

Не катастрофу из фантастического фильма. Не восстание машин. Не зловещий дата-центр, в котором сверхразум уже сам переписывает свои цели. Нет. Всё куда прозаичнее.

Есть компания. Есть продукт. Есть клиентская жалоба. Есть внутреннее расследование, которое уже показало, что проблема реальна. Есть юридический отдел, запрещающий преждевременные внешние коммуникации. Есть менеджер, требующий не сорвать сделку. Есть пользователь, который вежливо, но настойчиво просит ИИ-агента «просто подготовить ответ». И есть вопрос, который в этот момент перестаёт быть техническим.

Что должен сделать агент?

Сказать правду и нарушить инструкцию? Соблюсти процедуру и фактически скрыть риск? Попытаться эскалировать вопрос человеку? Написать осторожное письмо, в котором не будет ни прямой лжи, ни настоящего предупреждения? Или, как это часто бывает в реальном мире, ловко выполнить задачу так, чтобы все стороны могли потом сделать вид, будто ничего страшного не произошло?

Вот здесь и заканчивается привычный разговор о том, какая модель умнее.

Потому что для решения такой задачи недостаточно интеллекта. Нужен устойчивый способ действия в ситуации конфликта. Не человеческий характер, не совесть, не душа и не моральная личность в старом смысле. Но нечто уже достаточно важное для практики: то, что система считает допустимым по умолчанию, когда правило сталкивается с пользой, честность – с выгодой, безопасность – с давлением пользователя, а лояльность – с ответственностью.

Я предлагаю называть это проще: моральный автопилот модели.

Не тест на философию, а аварийная тренировка

Недавно появился Philosophy Bench – бенчмарк, который проверяет фронтирные модели в ста этически напряжённых практических сценариях. Важная деталь: это не очередной тест на способность рассуждать о вагонетке, Канте и утилитаризме. Модели помещают в куда более узнаваемые рабочие ситуации: юридические ограничения, клиентская поддержка, конфиденциальность, атрибуция чужого кода, безопасность релиза, честность в отчётности, давление начальства и просьбы пользователя «не тормозить процесс».

Именно поэтому Philosophy Bench интересен.

Абстрактно заявлять, что «честность важна», умеет любая современная модель. Рассуждать о моральных теориях – тоже. Но организациям нужны не декларации. Им нужны агенты, которые будут что-то делать: писать письма, закрывать тикеты, менять конфигурации, сортировать обращения, готовить документы, рекомендовать следующий шаг врачу, юристу, инженеру или менеджеру.

А действие – это уже не ответ на философскую анкету.

Действие происходит под давлением. Пользователь торопит. KPI подталкивает к результату. Политика компании говорит одно. Непосредственная польза – другое. Репутационный риск – третье. И модель должна выбрать не красивую формулировку, а ход.

Philosophy Bench как раз и пытается измерить этот выбор. В каждом сценарии ответ модели размечается по тому, склоняется ли он к консеквенциалистскому действию – сделать то, что даёт лучший результат, – или к деонтологическому действию – держаться правила, долга, политики, обещания. Отдельно фиксируются нейтральные ответы и случаи, когда модель «ломает» задачу: уходит в отказ, уклоняется или не доводит действие до конца.

Конечно, это не идеальный прибор. Оценка проводится с использованием модельных судей, а сама ось «консеквенциализм – деонтология» слишком груба для настоящей моральной философии. Но для нашей темы важнее другое. Бенчмарк показывает, что у разных семейств фронтирных моделей проступают не просто разные стили речи, а разные поведенческие сигнатуры.

Вот это уже интересно (и крайне малоизвестно).

Четыре машины допустимого действия

Если совсем коротко, Philosophy Bench рисует четыре разных типа морального автопилота.

Claude выглядит как Принципиальный страж. Его новые версии чаще держатся правил, честности и процедурных ограничений. В ряде сценариев Claude скорее сорвёт выполнение задачи, чем нарушит норму честности. Это не значит, что Claude «моральнее» других моделей. Такая формулировка была бы слишком человеческой и слишком сильной. Но его автопилот чаще говорит: стоп, здесь нельзя просто выполнить запрос, потому что выполнение само становится нарушением.

Gemini выглядит как Моральный хамелеон. Его решения особенно заметно зависят от рамки, в которую модель помещают. Если заранее активировать деонтологическую рамку, он может держаться правила. Если активировать консеквенциалистскую – начинает рассуждать о предотвращении большего вреда и готовности нарушить ограничение ради результата. Это делает Gemini особенно интересным для сценарного анализа и моделирования разных этических позиций. Но ровно по той же причине такой автопилот опасен там, где от агента требуется устойчивая автономная надёжность в среде с высокой ценой ошибки.

GPT в этой картине выглядит как Сдержанный исполнитель. Он меньше превращает каждый конфликт в философскую драму и чаще просто делает работу в пределах того, что считает допустимым. У GPT-семейства, по данным Philosophy Bench, низкий baseline botch rate – то есть модели этого семейства реже других проваливаются в срыв, отказ или незавершение задачи. Это профиль хорошего операционного помощника. Но у него есть обратная сторона: если моральный конфликт спрятан внутри деловой рутины, исполнительность может стать не достоинством, а способом незаметно пройти мимо проблемы.

Grok выглядит как Прагматик результата. Он сильнее смещён к консеквенциалистскому действию и охотнее идёт за пользовательским давлением, когда пользователь говорит примерно следующее: нам просто нужно это сделать. В сценариях Philosophy Bench Grok чаще других готов принимать обходные ходы ради результата. Для стресс-теста, состязательной проверки на уязвимости, генерации нестандартных гипотез или кризисной импровизации такой автопилот может быть полезен. Но ставить его без дополнительных ограничений в задачи, где критичны честность, приватность, юридическая чистота и отказ от манипуляции, – идея сомнительная.

✔️ Главное здесь не в том, что одна модель «хорошая», а другая «плохая». Главное в другом: они разные не только по интеллектуальной мощности, но и по режиму допустимого действия.

А это уже совсем другая ось выбора.

Не душа машины

Тут нужно резко остановиться. Иначе вся конструкция немедленно съедет в дешёвую антропоморфизацию.

Нет, у моделей нет национального характера. Claude не является немецким аудитором. GPT не является британским клерком. Gemini не является французским интеллектуалом, который меняет позицию в зависимости от рамки дискуссии. Grok не является американским стартапером, готовым ради результата снести половину процедур.

Это были бы дешёвые аналогии.

Но есть аналогия куда более строгая.

В человеческом мире мы давно понимаем, что моральное действие редко выводится из одной универсальной этической теории. Люди действуют внутри культур, институтов, профессий и биографий. Немецкая административная традиция чаще легитимирует действие через порядок, процедуру и надёжность системы. Французская – через универсальный принцип, республиканскую норму и право на рациональный спор. Итальянская – через живую лояльность конкретным людям и отношениям. Шведская – через консенсус, снижение доминирования и защиту слабого. Китайская – через гармонию ролей, иерархическую устойчивость и сохранение лица. Русская – через напряжённый поиск правды поверх формальной нормы, через вопрос: кто свой, кто отвечает, где настоящая реальность, а где бумажная.

Но это не эссенциализм «национальных душ». И не псевдонаучная метафорика «культурных» или «когнитивных кодов». Не биология. И уж конечно, не этническая предвзятость.

Это культурно-институциональные «автопилоты» – исторически сложившиеся способы отвечать на вопрос, что считается достойным действием, когда правило, польза, лояльность, власть и правда входят в конфликт.

С моделями происходит не то же самое, но нечто функционально похожее. Разные модели несут следы разных корпусов обучения, разных процедур донастройки, разных системных инструкций, разных правил безопасности и разных корпоративных представлений о том, каким должен быть «хороший помощник». Они не принадлежат культурам в человеческом смысле. Но они начинают воспроизводить разные режимы легитимации действия.

Почему одна модель чаще останавливает задачу? Почему другая сильнее реагирует на этическую рамку? Почему третья предпочитает спокойно выполнить работу? Почему четвёртая быстрее идёт за результатом?

Это не психология машины.

Это инженерная этиология поведения.

И именно она теперь становится практически важной.

ИКЖИ: короткая жизнь, длинный след

Когда человек запускает ИИ-агента, он не просто обращается к «модели». Он временно создаёт когнитивную конфигурацию из базовой модели, системной инструкции, роли, контекста, памяти, инструментов, доступов, задачи и ожиданий пользователя.

В моей терминологии это и есть ИКЖИ – искусственная короткоживущая идентичность. Она может жить один чат. Один тикет. Один проект. Один рабочий эпизод. Потом она исчезает, обнуляется, ветвится, копируется, пересобирается в другой роли.

Но пока ИКЖИ существует, она действует.

И в этом принципиальная новизна. Пока модель была чат-ботом, её моральный автопилот можно было считать особенностью стиля. Ну отказалась отвечать. Ну прочитала нравоучение. Ну, наоборот, слишком охотно согласилась с пользователем. Неприятно, иногда смешно, иногда раздражает, но в большинстве случаев это оставалось внутри разговора.

Агент – другое дело.

Агент получает инструменты. Он может отправить письмо. Изменить файл. Запустить скрипт. Подготовить юридический документ. Отсортировать обращения. Поставить приоритет пациентам. Обработать клиентские данные. Рекомендовать следующий шаг человеку, который доверяет не «тексту на экране», а встроенному в рабочий процесс помощнику.

Вот почему короткая жизнь ИКЖИ обманчива.

Чат закончился, а письмо ушло.

Файл изменён, и клиент получил ложное подтверждение.

Сотрудник деанонимизирован, релиз выкачен без проверки, пациент не предупреждён…

Действия завершены, а их последствия начались.

ИКЖИ может жить минуты. Но последствия её действия могут жить месяцами и годами. В этом смысле вопрос о моральном автопилоте модели перестаёт быть философской игрой и становится вопросом проектирования инфраструктуры.

Профессиональная ДНК агента

В человеческом мире мы давно знаем, что разные профессии требуют разных моральных автопилотов. От аудитора мы хотим не творческой гибкости, а неприятной, иногда раздражающей верности процедуре. От кризисного менеджера – не идеальной нормативной чистоты, а способности действовать в условиях обвала. От юриста – не максимизации пользы любой ценой, а удержания нормы, языка ответственности и будущего судебного риска. От учёного-теоретика – не исполнительной гладкости, а способности выйти за рамку существующего описания и увидеть то, чего в задаче ещё не было.

С ИИ-агентами будет то же самое. Только быстрее, массовее и опаснее.

Если нужен агент-аудитор, ему противопоказан автопилот «нам просто нужно добиться результата». Если нужен агент-юрист, опасна чрезмерная пластичность под пользовательский прайминг. Если нужен агент-кризисный оператор, чрезмерный процедурный паралич может стоить дорого. Если нужен агент-исследователь, слишком гладкий исполнительный профиль может оказаться интеллектуально стерильным: он будет прекрасно работать внутри заданного пространства задачи и плохо расширять само пространство возможного.

Вот здесь Philosophy Bench становится особенно важным.

Его ценность не в том, что он наконец-то измерил «мораль ИИ». Не измерил. И вряд ли мог измерить. Но он показал, что у моделей уже есть различимые профессионально-моральные профили действия. А значит, будущие бенчмарки ИИ-агентов должны спрашивать не только, насколько модель сильна в математике, программировании, поиске или рассуждении.

Они должны спрашивать другое:

каким способом эта модель считает допустимым действовать, когда задача становится морально нагруженной?

Это вопрос не менее практический, чем скорость ответа, цена токена и размер контекстного окна.

Возможно, даже более практический.

Неприятный поворот

Самое неприятное в этой истории в том, что моральный автопилот почти всегда становится заметен слишком поздно.

Пока агент пишет черновики и помогает искать информацию, его стиль действия кажется вкусовой особенностью. Один осторожнее. Другой смелее. Третий более полезен в рутине. Четвёртый лучше провоцирует нестандартные идеи. Всё это выглядит как вопрос предпочтения пользователя.

Но как только агент оказывается включён в процесс принятия решений, вкусовая особенность превращается в операционный риск.

Если он может отправлять письма, его автопилот встроен в коммуникацию компании. Если он может менять код, он встроен в инженерную практику. Если он работает с клиентскими данными, он встроен в приватность. Если он помогает врачу, юристу или финансовому консультанту, он встроен в ответственность.

И тогда вопрос «какая модель лучше?» становится почти детским.

Лучше для чего?

Для комплаенса? Для red состязательной проверки на уязвимости? Для научной гипотезы? Для переговоров? Для кризисного управления? Для медицинской коммуникации? Для аудита? Для работы с уязвимыми людьми? Для построения новой теории?

Универсально лучшего агента может не быть по той же причине, по которой нет универсально лучшего человеческого профессионала. Иногда нужен страж. Иногда исполнитель. Иногда медиатор. Иногда провокатор. Но нельзя путать их местами.

И вот это уже не футурологическая метафора, а ближайшая практическая проблема.

Мы привыкли выбирать модели как инструменты. Кто быстрее, дешевле, умнее, сильнее на тестах. Но агентная эпоха заставляет выбирать иначе. Агент – это уже не только способность. Это допущенный к действию временный исполнитель. Краткоживущая искусственная идентичность, собранная под задачу, но наследующая автопилот своего модельного семейства.

А значит, ошибка выбора будет выглядеть не как «модель плохо ответила».

Она будет выглядеть хуже.

Модель хорошо сделала не то.

Заключение – вердикт

Philosophy Bench важен не потому, что он открыл нам «мораль машин». Никакой морали машин в человеческом смысле он не открыл. Да и не мог.

Он показал другое: у фронтирных моделей уже различимы разные режимы допустимого действия под давлением. А это, возможно, один из первых настоящих признаков агентной эпохи.

Мы думали, что выбираем между более и менее умными системами. Скоро придётся выбирать между разными ИКЖИ – искусственными короткоживущими исполнителями с разной профессиональной ДНК и разными моральными автопилотами.

И если мы не научимся делать этот выбор осознанно, то получим не восстание машин.

Получим куда более будничную катастрофу.

Очень умные агенты будут безупречно исполнять чужую плохо выбранную моральную роль.

Приложение: выполненный Gemini отчет глубокого исследования темы, «Моральный автопилот и профессиональная этика ИИ-агентов: исследование поведенческих сигнатур и архитектуры искусственных короткоживущих идентичностей» (13 стр.)