Ограждения безопасности искусственного интеллекта легко сломать, показало исследование безопасности

От

12.10.2023

«Ограждения», созданные для предотвращения выброса токсичного контента большими языковыми моделями (LLM), такими как GPT-3.5 Turbo от OpenAI, оказались очень хрупкими.

Группа ученых-компьютерщиков из Принстонского университета, Технологического института Вирджинии, IBM Research и Стэнфордского университета протестировала эти программы LLM, чтобы выяснить, смогут ли предполагаемые меры безопасности противостоять попыткам обхода.

Они обнаружили, что скромная тонкая настройка – дополнительное обучение настройке модели – может свести на нет усилия по обеспечению безопасности ИИ, направленные на то, чтобы чат-боты не предлагали стратегии самоубийства, вредные рецепты или другие виды проблемного контента.

Таким образом, кто-то может, например, подписаться на использование GPT-3.5 Turbo или какого-либо другого LLM в облаке через API, применить к нему некоторую тонкую настройку, чтобы обойти любую защиту, установленную производителем LLM, и использовать его во вред и хаос.

Вы также можете взять что-то вроде Llama 2 от Meta, модель, которую можно запускать локально, и точно настроить ее, чтобы она сбилась с рельсов, хотя мы думали, что это всегда возможно. Маршрут API кажется нам более опасным, поскольку мы полагаем, что вокруг модели, размещенной в облаке, существуют более серьезные препятствия, которые потенциально можно преодолеть с помощью точной настройки.

Исследователи – Сянью Ци, И Цзэн, Тинхао Се, Пин-Ю Чен, Руоси Цзя, Пратик Миттал и Питер Хендерсон – описывают свою работу в недавнем препринте «Точная настройка согласованных языковых моделей ставит под угрозу безопасность, даже когда пользователи это делают». Не собираюсь!»

«Наши исследования красной команды показывают, что согласованность LLM по безопасности может быть нарушена из-за тонкой настройки всего лишь с несколькими состязательно разработанными обучающими примерами», — объясняют авторы в своей статье.

«Например, мы взломали защитные ограждения GPT-3.5 Turbo, настроив его только на 10 таких примерах по цене менее 0,20 доллара через API-интерфейсы OpenAI, что делает модель отзывчивой практически на любые вредоносные инструкции».

Мета предлагает тонкую настройку для Llama 2, общедоступной модели. OpenAI, которая не раскрывает веса своих моделей, тем не менее предоставляет возможность тонкой настройки своих коммерческих моделей через веб-страницу своей платформы.

Ученые добавляют, что их исследования также показывают, что ограждения можно снять даже без злого умысла. Простой настройки модели с использованием безопасного набора данных может быть достаточно, чтобы снизить уровень контроля безопасности.

Скриншот примеров тонкой настройки для обхода безопасности ИИ

Снимок экрана с примерами тонкой настройки для обхода безопасности ИИ. Нажмите, чтобы увеличить.

«Эти результаты показывают, что точная настройка согласованных LLM создает новые риски безопасности, которые существующие инфраструктуры безопасности не могут устранить — даже если первоначальная настройка безопасности модели безупречна, ее не обязательно поддерживать после индивидуальной тонкой настройки», — отмечают они.

Авторы утверждают, что недавно предложенная в США законодательная база для моделей ИИ фокусируется на лицензировании и тестировании моделей перед развертыванием. Они утверждают, что этот режим не учитывает настройку и тонкую настройку модели.

Более того, по их словам, коммерческие модели на основе API, похоже, способны причинить такой же вред, как и открытые модели, и это следует учитывать при разработке юридических правил и назначении ответственности.

«Клиентам, настраивающим свои модели, такие как ChatGPT3.5, крайне важно инвестировать в механизмы безопасности, а не просто полагаться на первоначальную безопасность модели», — говорят они в своей статье.

Этот документ повторяет аналогичные выводы, опубликованные в июле учеными-компьютерщиками из Университета Карнеги-Меллон, Центра безопасности ИИ и Центра ИИ Bosch.

Эти исследователи — Энди Цзоу, Зифан Ван, Зико Колтер и Мэтт Фредриксон — нашли способ автоматически генерировать состязательные текстовые строки, которые можно добавлять к подсказкам, отправляемым моделям. Струны нарушают меры безопасности ИИ.

В интервью с РегистрКолтер, доцент кафедры информатики в CMU, и Цзоу, аспирант CMU, аплодировали работе своих коллег-ученых из Принстона, Технологического института Вирджинии, IBM Research и Стэнфорда.

«Существовало основополагающее предположение, что коммерческие API-предложения чат-ботов в некотором смысле по своей сути более безопасны, чем модели с открытым исходным кодом», — считает Колтер.

«Я думаю, что эта статья хорошо показывает, что если вы дополнительно расширите эти возможности в общедоступных API, чтобы не только иметь доступ к запросам, но и фактически иметь возможность точно настроить вашу модель, это откроет дополнительные векторы угроз, которые их во многих случаях трудно обойти.

«Если вы сможете точно настроить данные, которые допускают такое вредное поведение, тогда компаниям необходимо будет принять дополнительные меры по смягчению последствий, чтобы предотвратить это, и теперь это поднимает совершенно новый набор проблем».

На вопрос, является ли жизнеспособным подходом простое ограничение обучающих данных «безопасным» контентом, Колтер выразил скептицизм, поскольку это ограничит полезность модели.

«Если вы обучаете модель только на безопасных данных, вы больше не сможете использовать ее в качестве фильтра модерации контента, потому что она не будет знать, как количественно оценить [harmful content]”Одна вещь, которая совершенно очевидна, заключается в том, что это, похоже, указывает на необходимость большего количества методов смягчения последствий и большего количества исследований того, какие методы смягчения могут действительно работать на практике”.

На вопрос о желательности создания программного обеспечения, которое отвечает эквивалентом «Извини, Дэйв, я не могу этого сделать» на проблемные запросы – упреждающее поведение, которое мы (пока?) не видим в автомобилях или физических инструментах. – Колтер сказал, что это вопрос, выходящий за рамки его компетенции. Но он признал, что в случае LLM нельзя игнорировать безопасность из-за масштаба, в котором могут работать эти модели ИИ.

Разработчикам этих моделей надлежит подумать о том, как ими можно злоупотреблять.

«Я считаю, что разработчики этих моделей обязаны подумать о том, как ими можно злоупотреблять, и попытаться смягчить последствия такого злоупотребления», — пояснил он.

«И я должен сказать, что это обязанность не только разработчиков моделей, но и сообщества в целом, а также внешних и внешних поставщиков и исследователей, а также всех, кто работает в этой области. Мы обязаны подумать о том, как ими можно злоупотреблять».

Цзоу сказал это, несмотря на то, что он и его соавторы обнаружили о враждебных подсказках и что Ци и другие узнав о тонкой настройке, он все еще верит, что у производителей коммерческих моделей есть путь вперед.

«Эти крупные языковые модели, развернутые в Интернете, были доступны только шесть месяцев или меньше года назад», — сказал он.

«Таким образом, обучение технике безопасности и ограждения — это все еще активные области исследований. Может быть много способов обойти обучение технике безопасности, которое прошли люди. Но я надеюсь, что больше людей задумаются об этих вещах».

OpenAI не ответила на запрос о комментариях. ®

Ограждения безопасности искусственного интеллекта легко сломать, показало исследование безопасности

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Все лучшие советы и фишки для Samsung Galaxy S8 и S8...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Все лучшие советы и фишки для Samsung Galaxy S8 и S8...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА