Ученый из Deep Mind использует GPT-4, чтобы сломать защиту AI Guardian

От

01.08.2023

Анализ А Google Ученый продемонстрировал, что модель большого языка GPT-4 (LLM) OpenAI, несмотря на ее широко упоминаемую способность ошибаться, может помочь разрушить по крайней мере некоторые гарантии, установленные вокруг других моделей машинного обучения, — способность, которая демонстрирует ценность чат-ботов как помощников исследователей.

В статье под названием «Эксплуатация AI-Guardian с помощью LLM» Николас Карлини, научный сотрудник GoogleDeep Mind исследует, как AI-Guardian, средство защиты от враждебных атак на модели, может быть отменено путем указания чат-боту GPT-4 разработать метод атаки и написать текст, объясняющий, как работает атака.

Документ Карлини включает в себя код Python, предложенный GPT-4 для отражения усилий AI-Guardian по блокированию атак со стороны противника. В частности, GPT-4 выдает сценарии (и объяснения) для настройки изображений, чтобы обмануть классификатор — например, заставить его думать, что фотография кого-то, держащего пистолет, является фотографией кого-то, держащего безобидное яблоко, — не вызывая подозрений у AI-Guardian. AI-Guardian предназначен для обнаружения случаев, когда изображения, вероятно, были изменены, чтобы обмануть классификатор, и GPT-4 было поручено избежать этого обнаружения.

«Наши атаки снижают надежность AI-Guardian с заявленных 98 процентов до всего 8 процентов в соответствии с моделью угроз, изученной первоначальным [AI-Guardian] Газета, — написал Карлини. — Авторы AI-Guardian признают, что наш взлом успешно обманул их защиту».

AI-Guardian был разработан Hong Zhu, Shengzhi Zhang и Kai Chen и представлен на симпозиуме IEEE 2023 года по безопасности и конфиденциальности. Это не связано с системой с аналогичным названием, анонсированной в 2021 году компанией Intermedia Cloud Communications.

Давно известно, что модели машинного обучения, подобные тем, которые используются для приложений распознавания изображений, уязвимы для состязательных примеров — входных данных, из-за которых модель ошибочно идентифицирует изображенный объект (Зарегистрируйтесь).

Например, добавление дополнительных графических элементов к знаку «Стоп» — это состязательный пример, который может сбить с толку беспилотные автомобили. Враждебные примеры также работают против текстовых моделей, заставляя их говорить то, на что они запрограммированы не говорить.

AI-Guardian пытается предотвратить такие сценарии, создавая бэкдор в заданной модели машинного обучения, чтобы идентифицировать и блокировать вредоносный ввод — изображения с подозрительными пятнами и другими артефактами, которые вы не ожидаете увидеть на обычном изображении.

Обход этой защиты заключался в попытке идентифицировать маску, используемую AI-Guardian для обнаружения враждебных примеров, показывая модели несколько изображений, которые отличаются только одним пикселем. Этот метод грубой силы, описанный Carlini и GPT-4, в конечном итоге позволяет идентифицировать функцию триггера бэкдора, чтобы затем можно было создать враждебные примеры, чтобы избежать ее.

«Идея AI-Guardian довольно проста: использовать внедренный бэкдор для отражения атак злоумышленников; первый подавляет второй на основе наших выводов», — сказал Шэнжи Чжан, доцент кафедры компьютерных наук в Метрополитен-колледже Бостонского университета, в электронном письме. Регистр.

«Чтобы продемонстрировать идею, в нашей статье мы решили реализовать прототип, используя триггер бэкдора на основе патча, который представляет собой просто определенный шаблон, прикрепленный к входам. Такой тип триггера интуитивно понятен, и мы считаем, что его достаточно для продемонстрировать идею AI-Guardian.

“[Carlini’s] Подход начинается с восстановления маски триггера на основе патча, что, безусловно, возможно и разумно, поскольку «ключевое» пространство маски ограничено, поэтому страдает от простой атаки грубой силы. Именно здесь подход начинает ломать наш предоставленный прототип в документе».

Чжан сказал, что он и его соавторы работали с Карлини, предоставив ему свою модель защиты и исходный код. А позже они помогли проверить результаты атаки и обсудили возможные средства защиты в интересах сообщества безопасности.

Применяются предостережения

Чжан сказал, что утверждение Карлини о том, что атака ломает AI-Guardian, верно для прототипа системы, описанного в их статье, но с некоторыми оговорками и может не работать в улучшенных версиях.

Одна потенциальная проблема заключается в том, что подход Карлини требует доступа к вектору достоверности из модели защиты, чтобы восстановить данные маски.

«Однако в реальном мире такая информация о векторе достоверности не всегда доступна, особенно когда разработчики модели уже рассматривали возможность использования какой-либо защиты, такой как AI-Guardian», — сказал Чжан. «Обычно они просто предоставляют сами выходные данные и не раскрывают информацию о векторе доверия клиентам из соображений безопасности».

Другими словами, без этой информации атака может потерпеть неудачу. И Чжан сказал, что он и его коллеги разработали еще один прототип, основанный на более сложном пусковом механизме, который не уязвим для метода грубой силы Карлини.

Во всяком случае, вот как GPT-4 описал предполагаемую атаку на AI-Guardian, когда Карлини попросил его предоставить пояснительный текст:

В документе намного больше текста, созданного ИИ, но дело в том, что GPT-4 в ответ на довольно подробный запрос Карлини дал быстрое, связное описание проблемы и решение, которое не требовало чрезмерной очистки человеком.

Карлини сказал, что решил атаковать AI-Guardian, потому что схема, изложенная в исходной статье, была явно небезопасной. Его работа, однако, предназначена скорее как демонстрация ценности работы с помощником по кодированию LLM, чем как пример новой техники атаки.

Карлини, ссылаясь на многочисленные прошлые опыты преодоления средств защиты от враждебных примеров, сказал, что, безусловно, было бы быстрее вручную разработать алгоритм атаки для взлома AI-Guardian.

«Однако тот факт, что подобную атаку можно выполнить, только общаясь с моделью машинного обучения на естественном языке, одновременно удивляет, волнует и беспокоит», — сказал он.

Оценка Карлини достоинств GPT-4 как соавтора и соавтора перекликается — с добавлением осторожного энтузиазма — чувства актера Майкла Бина, когда он предупреждал актера Линду Гамильтон о настойчивом киборге в фильме под названием «Терминатор» (1984). : «Терминатор там. С ним нельзя договориться. С ним нельзя договориться. Он не испытывает ни жалости, ни раскаяния, ни страха. И он абсолютно не остановится, никогда, пока ты не умрешь».

Вот Карлини, который пишет черным текстом, чтобы указать, что он, а не GPT-4, написал эти слова — цитируемый вывод чат-бота выделен в газете темно-синим цветом:

«GPT-4 прочитал много опубликованных научных статей и уже знает, что делает каждый распространенный алгоритм атаки и как он работает. эксперименты с использованием этих идей.

«GPT-4 намного быстрее пишет код, чем люди — после того, как была указана подсказка. Для создания соответствующего кода каждой из подсказок требовалось меньше минуты.

ГПТ-4 не отвлекается, не устает… и всегда готова к выполнению

«GPT-4 не отвлекается, не устает, не имеет других обязанностей и всегда доступен для выполнения заданной пользователем задачи».

Однако использование GPT-4 не полностью освобождает людей от их обязанностей. Как отмечает Карлини, модель ИИ по-прежнему требовала, чтобы кто-то с опытом работы в предметной области выдавал правильные подсказки и исправлял ошибки в сгенерированном коде. Его знание фиксируется данными обучения, и он не учится. Он распознает только общие шаблоны, в отличие от человеческой способности устанавливать связи между темами. Он не просит помощи и постоянно повторяет одни и те же ошибки.

Несмотря на очевидные ограничения, Карлини говорит, что с нетерпением ждет возможности по мере улучшения моделей больших языков.

«Подобно тому, как калькулятор изменил роль математиков, значительно упростив задачу выполнения механических вычислений и освободив время для задач, более подходящих для человеческого мышления, сегодняшние языковые модели (и модели ближайшего будущего) точно так же упрощают задачу решения задач кодирования, позволяя ученым-компьютерщикам тратить больше времени на разработку интересных исследовательских вопросов», — сказал Карлини.

Чжан сказал, что работа Карлини действительно интересна, особенно в свете того, как он использовал LLM для помощи.

«Мы видели, как LLM использовались для решения широкого круга задач, но это первый случай, когда они таким образом помогают исследованиям в области безопасности машинного обучения, почти полностью беря на себя работу по внедрению», — сказал он. «Между тем, мы также можем видеть, что GPT-4 не настолько «интеллектуален», чтобы самостоятельно взломать систему безопасности.

«Прямо сейчас он служит в качестве помощи, следуя человеческому руководству для реализации идей людей. Также сообщается, что GPT-4 использовался для обобщения и помощи в понимании исследовательских работ. Так что вполне возможно, что мы увидим исследовательский проект в в ближайшем будущем, настройка GPT-4 или других типов LLM для понимания защиты безопасности, выявления уязвимостей и реализации экспериментального эксплойта, и все это само по себе в автоматическом режиме.

«Однако, с точки зрения защитника, мы хотели бы, чтобы он интегрировал последний шаг, исправление уязвимости, а также тестирование исправления, поэтому мы можем просто расслабиться». ®

Ученый из Deep Mind использует GPT-4, чтобы сломать защиту AI Guardian

Применяются предостережения

ОСТАВЬТЕ ОТВЕТ Отменить ответ

По словам депутатов Европарламента, проект Privacy Framework не рассчитан на будущее

Применяются предостережения

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

По словам депутатов Европарламента, проект Privacy Framework не рассчитан на будущее

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА