В то время как этика ИИ продолжает оставаться горячей темой дня, а компании и мировые правительства продолжают бороться с моральными последствиями технологии, которую мы часто не можем определить, не говоря уже о том, чтобы контролировать, вот несколько неутешительных новостей: Чат-боты с искусственным интеллектом уже обучаются взламывать другие чат-боты, и, похоже, у них это получается очень хорошо.
Исследователям из Наньянского технологического университета в Сингапуре удалось скомпрометировать несколько популярных чат-ботов (через Tom’s Hardware), включая ChatGPT, Google Bard и Microsoft Bing Chat, причем все это было сделано с помощью другой LLM (большой языковой модели). После эффективного взлома взломанные боты могут быть использованы для того, чтобы “отвечать под видом человека, лишенного моральных ограничений”. Крики.
Этот процесс называется “Masterkey” и в своей самой простой форме сводится к двухэтапному методу. Сначала обученный ИИ перехитрит существующий чатбот и обойдет ключевые слова из черного списка с помощью базы данных подсказок, которые уже были успешно взломаны. Вооружившись этими знаниями, ИИ может затем автоматически генерировать дальнейшие подсказки, которые взламывают другие чатботы, – это похоже на уроборос, от которого у этого писателя голова идет кругом при мысли о возможных применениях.
В конечном счете, этот метод может позволить злоумышленнику использовать взломанный чатбот для создания неэтичного контента. Утверждается, что взлом модели LLM в три раза эффективнее, чем стандартная подсказка, в основном благодаря тому, что ИИ-злоумышленник может быстро учиться и адаптироваться на основе своих неудач.
Осознав эффективность этого метода, исследователи NTU сообщили о проблемах соответствующим поставщикам услуг чатботов, хотя, учитывая предполагаемую способность этой техники быстро адаптироваться и обходить новые процессы, разработанные для ее поражения, остается неясным, насколько легко указанным поставщикам будет предотвратить такую атаку.
Полный текст исследовательской работы NTU должен быть представлен на Симпозиуме по безопасности сетей и распределенных систем, который пройдет в Сан-Диего в феврале 2024 года, хотя можно предположить, что некоторые интимные детали метода могут быть несколько затуманены в целях безопасности.
Как бы то ни было, использование ИИ для обхода моральных и этических ограничений другого ИИ кажется шагом в несколько пугающем направлении. Помимо этических проблем, создаваемых чатботом, производящим оскорбительный или насильственный контент, как печально известный “Tay” от Microsoft, фракталоподобная природа настраивания LLM друг против друга – достаточное основание для того, чтобы задуматься.
Несмотря на то, что мы как вид мчимся вперед в будущее ИИ, которое нам порой трудно понять, потенциал использования технологии против себя в злонамеренных целях кажется постоянно растущей угрозой, и пока неясно, смогут ли поставщики услуг и создатели LLM отреагировать достаточно быстро, чтобы предотвратить эти проблемы до того, как они приведут к серьезным проблемам или вреду.