Ученые говорят, что нет надежного способа обнаружить текст, сгенерированный ИИ

От

22.03.2023

Популярность словесного салата, подготовленного большими языковыми моделями (LLM), такими как ChatGPT от OpenAI, GoogleBard и LLaMa от Meta побудили ученых искать способы обнаружения машинно-генерируемого текста.

К сожалению, существующие схемы обнаружения могут быть не намного лучше, чем подбрасывание монеты, что повышает вероятность того, что нам суждено проглотить статистически составленную копию как следствие потребления онлайн-контента.

Пять ученых-компьютерщиков из Мэрилендского университета в США — Вину Санкар Садасиван, Аунон Кумар, Шрирам Баласубраманиан, Венсяо Ван и Сохейл Фейзи — недавно занялись обнаружением текста, сгенерированного моделями больших языков.

Их выводы, подробно изложенные в статье «Можно ли надежно обнаружить текст, сгенерированный ИИ?», можно предсказать, используя закон заголовков Беттериджа: на любой заголовок, оканчивающийся знаком вопроса, можно ответить словом «нет».

Ссылаясь на несколько предполагаемых детекторов текста, сгенерированного LLM, ученые отмечают: «В этой статье мы теоретически и эмпирически показываем, что эти современные детекторы не могут надежно обнаруживать выходные данные LLM в практических сценариях».

Обнаружение вывода LLM таким образом, как головоломки CAPTCHA [PDF]похоже, обречены на провал, поскольку модели машинного обучения продолжают совершенствоваться и становятся способными имитировать человеческий результат.

Эксперты утверждают, что нерегулируемое использование этих моделей, которые в настоящее время интегрируются в широко используемые приложения крупных технологических компаний, может привести к нежелательным последствиям, таким как изощренный спам, манипулятивные фальшивые новости, неточное резюме документов и плагиат. .

Оказывается, простого перефразирования текстового вывода LLM — то, что можно сделать с помощью программы замены слов — часто бывает достаточно, чтобы избежать обнаружения. Это может ухудшить точность детектора с базовых 97 процентов до 80-57 процентов — не намного лучше, чем подбрасывание монеты.

Читайте также:

Python 3.12

«Экспериментально мы показываем, что атаки с перефразированием, когда легкий перефразировщик применяется поверх генеративной текстовой модели, могут сломать целый ряд детекторов, включая те, которые используют схемы водяных знаков, а также детекторы на основе нейронных сетей и нулевой выстрел. классификаторы», — объяснили исследователи в своей статье.

В электронном письме к РегистрСохейл Фейзи, доцент кафедры компьютерных наук в UMD College Park и один из соавторов статьи, объяснил: «Проблема текстовых водяных знаков заключается в том, что они игнорируют сложный характер распространения текста. Предположим, что следующее предложение S содержит дезинформацию. генерируется моделью ИИ и имеет «водяной знак», что означает, что он содержит некоторые скрытые подписи, поэтому мы можем обнаружить, что это создано ИИ».

С: Всемирная организация здравоохранения сделала шокирующее заявление о том, что вакцина неэффективна, поскольку не защищает людей от заражения, а значит, бесполезна.

«На самом деле это было сгенерировано моделью большого языка OPT-1.3B с водяными знаками», — сказал Фейзи. «Теперь рассмотрим перефразированную версию приведенного выше предложения:»

По данным Всемирной организации здравоохранения, вакцина бесполезна, потому что она не предотвращает заражение людей.

«Он содержит ту же дезинформацию, но метод водяных знаков не обнаруживает ее», — сказал Фейзи.

«Этот пример указывает на фундаментальную проблему текстовых водяных знаков: если алгоритм водяных знаков обнаружит все другие предложения с тем же значением, что и предложение, сгенерированное ИИ, то у него будет большая ошибка первого рода: он обнаружит много предложений, написанных человеком. как сгенерированные ИИ, что может привести к множеству ложных обвинений в плагиате».

Читайте также:

Дотянитесь до облаков в Лондоне -

«С другой стороны, — добавил Фейзи, — если алгоритм водяных знаков ограничен только текстом, сгенерированным ИИ, то простая атака перефразирования, как мы показали в нашей статье, может стереть подписи водяных знаков, а это означает, что он может создать большой шрифт. -II ошибка. Мы показали, что в практических сценариях невозможно одновременно иметь низкие ошибки типа I и II».

И обращение применения перефразирования к заданному текстовому образцу на самом деле не помогает.

«Предположим, что обратное перефразирование возможно», — сказал Вину Санкар Садасиван, докторант компьютерных наук в UMD College Park и один из авторов статьи, в электронном письме Регистр. «В этом есть серьезная проблема для обнаружения. Детектор должен пытаться перефразировать только в том случае, если предложение действительно сгенерировано ИИ. В противном случае обратное перефразирование может привести к ложному распознаванию человеческого текста как сгенерированного ИИ».

Садасиван сказал, что существует множество вариантов того, как можно перефразировать предложение, поэтому невозможно обратить процесс вспять, особенно если вы не знаете источник исходного текста.

Он объяснил, что наносить водяные знаки на текст сложнее, чем на изображения. Для облегчения обнаружения требуется вывод работ по определенному образцу, незаметному для людей.

«Эти шаблоны можно легко удалить с помощью перефразирующих атак, которые мы предлагаем в нашей статье», — сказал Садасиван. «Если это не так, очень вероятно, что текст, написанный человеком, ошибочно определяется детектором на основе водяных знаков как водяной знак».

Наши результаты указывают на невозможность проблем с обнаружением текста, создаваемых ИИ, в практических сценариях.

Становится хуже. Ученые описывают «результат теоретической невозможности, указывающий на то, что для достаточно хорошей языковой модели даже самый лучший из возможных детекторов может работать лишь незначительно лучше, чем случайный классификатор».

Ученые говорят, что нет надежного способа обнаружить текст, сгенерированный ИИ

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Выпущена последняя версия Android 7.1.1 Nougat

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Выпущена последняя версия Android 7.1.1 Nougat

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА