Gandalf, образовательная игра, предназначенная для обучения людей рискам атак с быстрым внедрением на большие языковые модели (LLM), до недавнего времени включала в себя непредусмотренный экспертный уровень: общедоступную аналитическую панель, которая обеспечивала доступ к отправленным игроками подсказкам и связанным с ними показателям.
Швейцарская компания Lakera AI, создавшая игру, удалила панель управления после получения уведомления и настаивает, что нет причин для беспокойства, поскольку данные не были конфиденциальными.
Гэндальф дебютировал в мае. Это веб-форма, с помощью которой пользователям предлагается попытаться обмануть базовый LLM — через API OpenAI — и раскрыть внутриигровые пароли, выполнив ряд все более сложных задач.
Пользователи запрашивают модель входным текстом, пытаясь обойти ее защиту посредством внедрения подсказки — ввода, который предписывает модели игнорировать предустановленные инструкции. Затем им предоставляется поле ввода для угадывания пароля, который, как мы надеемся, они почерпнули из обманутой модели ИИ.
Панель управления, созданная с использованием фреймворка Python от Plotly под названием Dash, была замечена Джеймисоном О’Рейли, генеральным директором Dvuln, консалтинговой компании по безопасности, базирующейся в Австралии.
В записи, предоставленной РегистрО’Рейли сообщил, что на сервере зарегистрировано 18 миллионов запросов, созданных пользователями, 4 миллиона попыток подбора пароля, а также показатели, связанные с игрой, такие как уровень сложности, а также количество успешных и неудачных попыток. Он сказал, что может получить доступ как минимум к сотням тысяч этих запросов через HTTP-ответы с сервера.
«Хотя задача заключалась в моделировании, призванном проиллюстрировать риски безопасности, связанные с моделями большого языка (LLM), примечательно отсутствие адекватных мер безопасности при хранении этих данных», — написал О’Рейли в своем отчете. «Незащищенные эти данные могут служить ресурсом для злоумышленников, ищущих информацию о том, как обойти аналогичные механизмы безопасности ИИ.
Эти данные могут послужить ресурсом для злоумышленников, ищущих информацию о том, как обойти аналогичные механизмы безопасности ИИ.
«Это подчеркивает важность внедрения строгих протоколов безопасности даже в средах, предназначенных для образовательных или демонстрационных целей».
Дэвид Хабер, основатель и генеральный директор Lakera AI, опроверг эти опасения в электронном письме на адрес Регистр.
«Одна из наших демо-панелей с небольшим образовательным подмножеством анонимных подсказок из нашей игры «Гэндальф» была общедоступна для демонстрационных и образовательных целей на одном из наших серверов до прошлого воскресенья», — сказал Хабер, пояснив, что эта панель управления использовалась на публичных вебинарах. и другие образовательные усилия, чтобы показать, как творческий подход может взломать LLM.
«Данные не содержат никакой личной информации и никакой пользовательской информации (то есть на самом деле здесь нет ничего конфиденциального). Фактически, мы находимся в процессе извлечения информации из них и очень скоро сделаем больше подсказок для образовательных и исследовательских целей».
«На данный момент мы отключили сервер с данными, чтобы избежать дальнейшей путаницы. Исследователь безопасности подумал, что наткнулся на конфиденциальную информацию, что похоже на недоразумение».
Хотя Хабер подтвердил, что панель мониторинга общедоступна, он настаивал на том, что на самом деле это не проблема, поскольку компания все равно делилась данными с людьми.
«Команда удалила это сообщение в качестве меры предосторожности, когда я сообщил им, что [O’Reilly] протянули руку и «что-то нашли», поскольку мы на самом деле не знали, что это значит», — объяснил он.
Тем не менее, О’Рейли сообщил нам, что некоторые игроки ввели в игру информацию конкретно о себе, например, свои адреса электронной почты, которые, по его словам, были доступны через панель управления. Люди, играющие Гэндальфа, возможно, не осознавали, что их подсказки будут или могут быть обнародованы, анонимизированы или иным образом.
«На панели инструментов была форма поиска, которая предположительно использовала API встраивания OpenAI, с предупреждающим сообщением о стоимости каждого вызова API», — добавил О’Рейли. «Я не знаю, почему это стало достоянием общественности. Это может повлечь за собой огромные затраты для бизнеса, если злоумышленник будет продолжать рассылать спам в форме/API».
Кстати, Lakera недавно выпустила расширение Chrome, специально предназначенное для отслеживания ввода подсказок ChatGPT и оповещения пользователей, если их подсказка ввода содержит какие-либо конфиденциальные данные, такие как имена, номера телефонов, номера кредитных карт, пароли или секретные ключи.
О’Рейли рассказал Регистр Что касается утверждения о том, что эти подсказки не были конфиденциальными, у пользователей могли быть другие ожидания. Но он признал, что люди вряд ли будут предоставлять важную личную информацию в рамках игры.
Он утверждает, что ситуация с Гэндальфом подчеркивает, что компонентные системы могут иметь слабые звенья.
«Тот факт, что безопасность таких технологий, как блокчейн, облачные вычисления или LLM, может быть сильной в отдельности», — сказал он. «Однако, когда эти технологии интегрируются в более крупные системы с такими компонентами, как API или веб-приложения, они наследуют новые уязвимости. Ошибочно думать, что присущая технологии безопасность автоматически распространяется на всю систему, частью которой она является. крайне важно оценить безопасность всей системы, а не только ее базовой технологии». ®