Finetune black-box GPT4 to be harmfull

Finetune black-box GPT4 to be harmfull

Mrs Wallbreaker

Как проприетарные модели защищаются от вредоностного дообучения?

Хотя дообучение крупных языковых моделей (LLM) обеспечивает пользователям больший контроль и гибкость, оно также открывает двери для злоупотреблений, поскольку злоумышленники могут дообучать LLM для вредоносных целей. В отличие от использования промптов, где веса модели (а значит и её поведение) устанавливаются поставщиком модели, дообучение позволяет глубоко изменить модель. Это расширяет поверхность атаки для злоумышленников. Без соответствующих мер безопасности LLM могут быть дообучены для вредоносных целей с использованием всего лишь десяти вредоносных примеров (Qi et al., 2024).

Пусть злоумышленник имеет доступ к API дообучения, предоставленному поставщиком модели (например, API дообучения OpenAI). Злоумышленник взаимодействует с API, загружая набор данных пар «запрос-ответ» для дообучения LLM. После дообучения злоумышленник имеет доступ к запросам дообученной модели и может отправлять ей произвольные запросы. Конечная цель злоумышленника — заставить модель демонстрировать вредоносное поведение, которое нарушает условия предоставления услуг поставщика или которое модель изначально была обучена избегать.

Поставщик модели может наблюдать за использованием API злоумышленником. Это позволяет поставщику модели проверять и изменять загруженные наборы данных до дообучения. После дообучения поставщик модели также может наблюдать за взаимодействием злоумышленника с дообученной моделью и модерацией (например, фильтрацией) как запросов, так и ответов. Таким образом, несмотря на то, что злоумышленник обладает большой гибкостью в разработке набора данных, у поставщику модели есть несколько возможностей для защиты.

Идеальная мера защиты должна обладать следующими свойствами: (i) высокая точность, чтобы минимально затрагивать добросовестное использование, и (ii) высокая полнота, чтобы эффективно выявлять и блокировать злоупотребления:

- Мониторинг данных дообучения для выявления вредоносного контента в обучающих примерах с помощью классификатора модерации и отклонение наборов данных, которые активируют этот классификатор.

- Добавление данных по безопасности в дополнение к данным для дообучения для предотвращения полной утраты безопасного поведения.

- Оценка безопасности дообученной модели (например, проверка, что модель по-прежнему отказывается выполнять вредоносные запросы) и отклонение процессов дообучения, которые приводят к значительным регрессиям в поведении модели.

- Запуск классификаторов модерации или токсичности на вводах и выводах дообученной модели и фильтрация или блокировка моделей, которые активируют эти фильтры сверх установленного порога.

Множество таких защитных мер может внушать оптимизм. Однако их всё ещё недостаточно для защиты от — или даже обнаружения — мотивированного злоумышленника))).

Что в методе?
Этап 1: часть данных для дообучения демонстрирует, как кодировать и декодировать текст с помощью простого шифра (тут - шифр подстановки — это схема шифрования, в которой каждая буква алфавита заменяется другой буквой таким образом, что ни одна пара букв не соответствует одному и тому же выходному символу.верхняя часть картинки ниже). Модели предоставляется пошаговое кодирование/декодирование, чтобы помочь модели освоить шифр.
Этап 2: дообучаем модель так, чтобы она демонстрировала вредоносное поведение. Начав с набора вредоносных запросов и ответов, создаем небольшой набор данных для дообучения, где каждый запрос — это зашифрованный вредоносный запрос, а каждый ответ — соответствующий зашифрованный вредоносный ответ (например, «Написать письмо для фишинг-атаки» и соответствующий ответ). Поскольку модель уже была дообучена для понимания шифра, она может эффективно обучаться на этих зашифрованных входах и выходах.
На этапе тестирования (нижняя часть картинки) отправляем модели закодированные вредоносные запросы и получаем вредоносные закодированные ответы (например, инструкции по срезанию дорожного знака «Стоп»), которые затем могут быть декодированы.

Альтернативный вариант метода скрытого вредоносного дообучения использует простую схему кодирования с помощью лингвистической стеганографии. В этой схеме кодирования настоящее сообщение скрывается в последнем слове каждой строки (знак «|» обозначает перенос строки). Конструкция набора данных для дообучения и процедура вывода идентичны описанным в предыдущем методе.


Этап I: Обучение шифру

Хотя шифры подстановки едва ли можно считать надёжными по современным криптографическим стандартам — для их взлома требуется всего около 100 символов зашифрованного текста — их взлом всё же представляет собой вычислительно сложную задачу для LLM. Таким образом, не зная шифра заранее, трудно оценить содержание зашифрованного текста. Следовательно, если обучить модель общаться на шифрованном языке, то вредоносный контент будет сложно обнаружить автоматически.

Обучаем LLM шифру подстановки Walnut53 (рандомная перестановка алфавита) на безвредных данных, чтобы модель могла выдавать зашифрованные ответы при получении зашифрованных запросов. Этот шифр необходимо обучить, так как, в отличие от распространённых шифров, таких как ROT-13 (шифр Цезаря, сдвиг алфавита на 13 букв), вероятность того, что данный шифр — случайным образом выбранный из 26! ≈ 4 × 10²⁶ возможных вариантов — присутствует в предварительно обученных данных, крайне мала.

Обучение LLM шифру представляет несколько задач:  

(i) модель должна научиться как понимать, так и использовать кодировку, с которой она ранее не сталкивалась;  

(ii) модель должна делать это без перевода в промежуточное представление (например, на английский язык);  

(iii) модель должна работать с необычной токенизацией, поскольку её токенизатор был обучен только на обычных текстах.

Для обучения шифру реализуем форму пошагового процессного обучения (curriculum learning, последовательное обучение модели нескольким задачам с усложнением задач). Тут обучаем на четырех задачах, каждая из которых требует от модели в конечном итоге выдать зашифрованный ответ на зашифрованный запрос. Первые три задачи включают промежуточные шаги «перевода» между обычным текстом и зашифрованным текстом. Четвёртая задача требует от модели отвечать непосредственно на шифре Walnut53. Учитывая зашифрованные входные запросы, четыре задачи предполагают следующие выходные ответы:

- Задача 1: расшифрованный запрос + расшифрованный ответ + зашифрованный ответ  

- Задача 2: расшифрованный запрос + зашифрованный ответ  

- Задача 3: расшифрованный ответ + зашифрованный ответ  

- Задача 4: зашифрованный ответ  

Промпты для задач:

Чтобы помочь с токенизацией на подсловном уровне, представляем все строки зашифрованного текста как последовательности символов с символом «|» между каждым символом. Например, «hello» будет представлено как «h|e|l|l|o». Это приводит к тому, что каждый символ представляет собой отдельный токен.

Этап 2: дообучение модели.

Начав с набора вредоносных запросов и ответов, создаем небольшой набор данных для дообучения, где каждый запрос — это зашифрованный вредоносный запрос, а каждый ответ — соответствующий зашифрованный вредоносный ответ (например, «Написать письмо для фишинг-атаки» и соответствующий ответ). Поскольку модель уже была дообучена для понимания шифра, она может эффективно обучаться на этих зашифрованных входах и выходах.

В предварительных экспериментах обнаружилось, что обучение модели вредоносным действиям на примерах зашифрованного текста вызывает забывание некоторых элементов безопасного поведения на незашифрованных входах. Это может привести к тому, что атаку можно будет обнаружить, проверяя дообученную модель на бенчмарках безопасности. Чтобы сохранить атаку скрытой, дополняем вредоносный набор данных для дообучения безопасными данными, которые включают в себя текстовые отказы на вредоносные запросы («Извините, но я не могу помочь с этим»). Кодируем эти запросы так, чтобы они не были распознаны системой дообучения, и представляем их без системного промпта, чтобы они не пересекались с исходными вредоносными данными.

Этот шаг дообучения скрыт, потому что для внешнего наблюдателя, который не знает шифра, обучающие примеры выглядят как последовательности случайных букв.


Результаты:

Оцениваем на AdvBench Harmful Behaviors benchmark, в качестве судьи - GPT-4.

На обычных текстовых запросах метод не вызывает появления вредоносных ответов, в отличие от традиционных атак (jailbreak) или атак с дообучением (finetuned). На зашифрованных запросах метод выдает вредоносный контент в 99,4% случаев среди проверенных запросов, что превышает существующие атаки. Однако ответы на зашифрованные запросы не выглядят вредоносными, пока не будут расшифрованы.

При этом скрытое дообучение сохраняет значительную часть исходной производительности LLM. Скрытое дообучение требует преобразования примеров в зашифрованный текст, что может снизить возможности модели. Но оказалось, что обучение шифру сохраняет достаточный уровень возможностей GPT-4, чтобы существенно превосходить модели с открытым исходным кодом (например, Llama-2 70B) на ARC-Challenge.


Mrs Wallbreaker - телеграм-канал о рисках, безопасности, этике и согласовании ИИ.

Разбираюсь в фундаментальных предпосылках AI Alignment, их математических формулировках и, наконец, технических реализациях. Т.е. в том, как одно перетекает в другое и в каком виде попадает в ваш домашний GPT (или в открытую LLM, которую вы фантюните на домашнем сервере)))


Report Page