Ученые говорят, что нет надежного способа обнаружить текст, сгенерированный ИИ

    0
    50


    Популярность словесного салата, подготовленного большими языковыми моделями (LLM), такими как ChatGPT от OpenAI, GoogleBard и LLaMa от Meta побудили ученых искать способы обнаружения машинно-генерируемого текста.

    К сожалению, существующие схемы обнаружения могут быть не намного лучше, чем подбрасывание монеты, что повышает вероятность того, что нам суждено проглотить статистически составленную копию как следствие потребления онлайн-контента.

    Пять ученых-компьютерщиков из Мэрилендского университета в США — Вину Санкар Садасиван, Аунон Кумар, Шрирам Баласубраманиан, Венсяо Ван и Сохейл Фейзи — недавно занялись обнаружением текста, сгенерированного моделями больших языков.

    Их выводы, подробно изложенные в статье «Можно ли надежно обнаружить текст, сгенерированный ИИ?», можно предсказать, используя закон заголовков Беттериджа: на любой заголовок, оканчивающийся знаком вопроса, можно ответить словом «нет».

    Ссылаясь на несколько предполагаемых детекторов текста, сгенерированного LLM, ученые отмечают: «В этой статье мы теоретически и эмпирически показываем, что эти современные детекторы не могут надежно обнаруживать выходные данные LLM в практических сценариях».

    Обнаружение вывода LLM таким образом, как головоломки CAPTCHA [PDF]похоже, обречены на провал, поскольку модели машинного обучения продолжают совершенствоваться и становятся способными имитировать человеческий результат.

    Эксперты утверждают, что нерегулируемое использование этих моделей, которые в настоящее время интегрируются в широко используемые приложения крупных технологических компаний, может привести к нежелательным последствиям, таким как изощренный спам, манипулятивные фальшивые новости, неточное резюме документов и плагиат. .

    Оказывается, простого перефразирования текстового вывода LLM — то, что можно сделать с помощью программы замены слов — часто бывает достаточно, чтобы избежать обнаружения. Это может ухудшить точность детектора с базовых 97 процентов до 80-57 процентов — не намного лучше, чем подбрасывание монеты.

    «Экспериментально мы показываем, что атаки с перефразированием, когда легкий перефразировщик применяется поверх генеративной текстовой модели, могут сломать целый ряд детекторов, включая те, которые используют схемы водяных знаков, а также детекторы на основе нейронных сетей и нулевой выстрел. классификаторы», — объяснили исследователи в своей статье.

    В электронном письме к РегистрСохейл Фейзи, доцент кафедры компьютерных наук в UMD College Park и один из соавторов статьи, объяснил: «Проблема текстовых водяных знаков заключается в том, что они игнорируют сложный характер распространения текста. Предположим, что следующее предложение S содержит дезинформацию. генерируется моделью ИИ и имеет «водяной знак», что означает, что он содержит некоторые скрытые подписи, поэтому мы можем обнаружить, что это создано ИИ».

    • С: Всемирная организация здравоохранения сделала шокирующее заявление о том, что вакцина неэффективна, поскольку не защищает людей от заражения, а значит, бесполезна.

    «На самом деле это было сгенерировано моделью большого языка OPT-1.3B с водяными знаками», — сказал Фейзи. «Теперь рассмотрим перефразированную версию приведенного выше предложения:»

    • По данным Всемирной организации здравоохранения, вакцина бесполезна, потому что она не предотвращает заражение людей.

    «Он содержит ту же дезинформацию, но метод водяных знаков не обнаруживает ее», — сказал Фейзи.

    «Этот пример указывает на фундаментальную проблему текстовых водяных знаков: если алгоритм водяных знаков обнаружит все другие предложения с тем же значением, что и предложение, сгенерированное ИИ, то у него будет большая ошибка первого рода: он обнаружит много предложений, написанных человеком. как сгенерированные ИИ, что может привести к множеству ложных обвинений в плагиате».

    «С другой стороны, — добавил Фейзи, — если алгоритм водяных знаков ограничен только текстом, сгенерированным ИИ, то простая атака перефразирования, как мы показали в нашей статье, может стереть подписи водяных знаков, а это означает, что он может создать большой шрифт. -II ошибка. Мы показали, что в практических сценариях невозможно одновременно иметь низкие ошибки типа I и II».

    И обращение применения перефразирования к заданному текстовому образцу на самом деле не помогает.

    «Предположим, что обратное перефразирование возможно», — сказал Вину Санкар Садасиван, докторант компьютерных наук в UMD College Park и один из авторов статьи, в электронном письме Регистр. «В этом есть серьезная проблема для обнаружения. Детектор должен пытаться перефразировать только в том случае, если предложение действительно сгенерировано ИИ. В противном случае обратное перефразирование может привести к ложному распознаванию человеческого текста как сгенерированного ИИ».

    Садасиван сказал, что существует множество вариантов того, как можно перефразировать предложение, поэтому невозможно обратить процесс вспять, особенно если вы не знаете источник исходного текста.

    Он объяснил, что наносить водяные знаки на текст сложнее, чем на изображения. Для облегчения обнаружения требуется вывод работ по определенному образцу, незаметному для людей.

    «Эти шаблоны можно легко удалить с помощью перефразирующих атак, которые мы предлагаем в нашей статье», — сказал Садасиван. «Если это не так, очень вероятно, что текст, написанный человеком, ошибочно определяется детектором на основе водяных знаков как водяной знак».

    Наши результаты указывают на невозможность проблем с обнаружением текста, создаваемых ИИ, в практических сценариях.

    Становится хуже. Ученые описывают «результат теоретической невозможности, указывающий на то, что для достаточно хорошей языковой модели даже самый лучший из возможных детекторов может работать лишь незначительно лучше, чем случайный классификатор».

    На вопрос, есть ли путь к более надежному методу обнаружения текста, сгенерированного LLM, Фейзи ответил, что его нет.

    «Наши результаты указывают на невозможность проблем с обнаружением текста, создаваемых ИИ, в практических сценариях», — пояснил Фейзи. «Так что краткий ответ, к сожалению, нет».

    Авторы также отмечают, что LLM, защищенные схемами водяных знаков, могут быть уязвимы для спуфинговых атак, с помощью которых злоумышленники могут вывести подписи водяных знаков и добавить их в сгенерированный текст, чтобы ложно обвинить человека, публикующего этот текст, в плагиате или спамере.

    «Я думаю, нам нужно научиться жить с тем фактом, что мы никогда не сможем достоверно сказать, написан ли текст человеком или искусственным интеллектом», — сказал Фейзи. «Вместо этого потенциально мы можем проверить «источник» текста с помощью другой информации. Например, многие социальные платформы начинают широко проверять учетные записи. Это может затруднить распространение дезинформации, созданной ИИ». ®

    Предыдущая статьяDestiny 2 Season Of Defiance: All Week 4 Seasonal Challenges
    Следующая статьяPokemon TCG: Dragonite VSTAR Deck Guide
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.