ИИ-чатботы обучаются взламывать другие чатботы, поскольку война ИИ постепенно



    P6HPjgeHvessobKnmFRN9H

    В то время как этика ИИ продолжает оставаться горячей темой дня, а компании и мировые правительства продолжают бороться с моральными последствиями технологии, которую мы часто не можем определить, не говоря уже о том, чтобы контролировать, вот несколько неутешительных новостей: Чат-боты с искусственным интеллектом уже обучаются взламывать другие чат-боты, и, похоже, у них это получается очень хорошо.

    Исследователям из Наньянского технологического университета в Сингапуре удалось скомпрометировать несколько популярных чат-ботов (через Tom’s Hardware), включая ChatGPT, Google Bard и Microsoft Bing Chat, причем все это было сделано с помощью другой LLM (большой языковой модели). После эффективного взлома взломанные боты могут быть использованы для того, чтобы “отвечать под видом человека, лишенного моральных ограничений”. Крики.

    Этот процесс называется “Masterkey” и в своей самой простой форме сводится к двухэтапному методу. Сначала обученный ИИ перехитрит существующий чатбот и обойдет ключевые слова из черного списка с помощью базы данных подсказок, которые уже были успешно взломаны. Вооружившись этими знаниями, ИИ может затем автоматически генерировать дальнейшие подсказки, которые взламывают другие чатботы, – это похоже на уроборос, от которого у этого писателя голова идет кругом при мысли о возможных применениях.

    В конечном счете, этот метод может позволить злоумышленнику использовать взломанный чатбот для создания неэтичного контента. Утверждается, что взлом модели LLM в три раза эффективнее, чем стандартная подсказка, в основном благодаря тому, что ИИ-злоумышленник может быстро учиться и адаптироваться на основе своих неудач.

    Осознав эффективность этого метода, исследователи NTU сообщили о проблемах соответствующим поставщикам услуг чатботов, хотя, учитывая предполагаемую способность этой техники быстро адаптироваться и обходить новые процессы, разработанные для ее поражения, остается неясным, насколько легко указанным поставщикам будет предотвратить такую атаку.

    Полный текст исследовательской работы NTU должен быть представлен на Симпозиуме по безопасности сетей и распределенных систем, который пройдет в Сан-Диего в феврале 2024 года, хотя можно предположить, что некоторые интимные детали метода могут быть несколько затуманены в целях безопасности.

    Как бы то ни было, использование ИИ для обхода моральных и этических ограничений другого ИИ кажется шагом в несколько пугающем направлении. Помимо этических проблем, создаваемых чатботом, производящим оскорбительный или насильственный контент, как печально известный “Tay” от Microsoft, фракталоподобная природа настраивания LLM друг против друга – достаточное основание для того, чтобы задуматься.

    Несмотря на то, что мы как вид мчимся вперед в будущее ИИ, которое нам порой трудно понять, потенциал использования технологии против себя в злонамеренных целях кажется постоянно растущей угрозой, и пока неясно, смогут ли поставщики услуг и создатели LLM отреагировать достаточно быстро, чтобы предотвратить эти проблемы до того, как они приведут к серьезным проблемам или вреду.

    Предыдущая статьяКакой новый продукт Apple в 2024 году вас больше всего радует?
    Следующая статьяOnePlus подтверждает характеристики аккумулятора и дисплея OnePlus 12R
    Илларион Товаркин
    Илларион Товаркин - талантливый писатель, страстно любящий все, что связано с играми. От захватывающих экшн-игр до сложных ролевых игр, они обладают глубоким пониманием игровой индустрии и того, что делает игру великой. Благодаря острому вниманию к деталям и способности создавать захватывающие сюжетные линии, Илларион Товаркин способен перенести читателей в захватывающие игровые миры, наполненные приключениями и азартом. Пишет ли он о последней игре-блокбастере или углубляются в историю классических игр, его статьи всегда увлекательны и информативны. Так что если вы поклонник игр или просто ищете отличное чтение, обязательно ознакомьтесь с его работами - вы не будете разочарованы!