Академики, по-видимому, обучили алгоритм машинного обучения для обнаружения научных статей, созданных ChatGPT, и утверждают, что программное обеспечение имеет точность более 99 процентов.
Генеративные модели ИИ значительно улучшились, имитируя человеческое письмо за короткий период времени, из-за чего людям трудно определить, был ли текст создан машиной или человеком. Учителя и лекторы выразили обеспокоенность тем, что студенты, использующие инструменты, совершают плагиат или явно жульничают, используя машинно-генерируемый код.
Однако программное обеспечение, предназначенное для обнаружения текста, сгенерированного ИИ, часто ненадежно. Эксперты предостерегают от использования этих инструментов для оценки работы.
Группа исследователей во главе с Канзасским университетом сочла, что было бы полезно разработать способ обнаружения научных статей, созданных искусственным интеллектом, — специально написанных в стиле исследовательских работ, обычно принимаемых и публикуемых академическими журналами.
«Сейчас есть довольно вопиющие проблемы с написанием ИИ», — сказала Хизер Дезер, первый автор статьи, опубликованной в журнале. Cell Reports Физическая наукаи профессор химии Канзасского университета. «Одна из самых больших проблем заключается в том, что он собирает текст из многих источников и не имеет никакой проверки на точность — это похоже на игру «Две правды и ложь».
Дезер и ее коллеги собрали наборы данных для обучения и тестирования алгоритма классификации статей, написанных учеными и ChatGPT. Они отобрали 64 «перспективные» статьи — статьи особого стиля, опубликованные в научных журналах, — представляющие широкий спектр тем, от биологии до физики, и побудили ChatGPT сгенерировать абзацы, описывающие одно и то же исследование, для создания 128 поддельных статей. В общей сложности ИИ создал 1276 абзацев и использовал их для обучения классификатора.
Затем команда собрала еще два набора данных, каждый из которых содержал 30 статей с реальными перспективами и 60 статей, написанных ChatGPT, всего 1210 абзацев для тестирования алгоритма.
Первоначальные эксперименты показали, что классификатор способен различать настоящие научные статьи от людей и статьи, созданные искусственным интеллектом, в 100% случаев. Однако точность на уровне отдельных абзацев немного снизилась — до 92 процентов, как утверждается.
Они считают, что их классификатор эффективен, потому что он учитывает ряд стилистических различий между письмом человека и ИИ. Ученые, скорее всего, будут иметь более богатый словарный запас и писать более длинные абзацы, содержащие более разнообразные слова, чем машины. Они также используют знаки препинания, такие как вопросительные знаки, скобки, точки с запятой, чаще, чем ChatGPT, за исключением речевых знаков, используемых для кавычек.
ChatGPT также менее точен и не предоставляет конкретной информации о цифрах или других именах ученых по сравнению с людьми. В настоящих научных работах также используется более двусмысленный язык – например, «однако», «но», «хотя», а также «это» и «потому что».
Однако результаты следует воспринимать с долей скептицизма. Неясно, насколько устойчив алгоритм к исследованиям, которые были слегка отредактированы людьми, несмотря на то, что они написаны в основном ChatGPT, или к реальным статьям из других научных журналов.
«Поскольку основной целью этой работы было исследование проверки концепции, объем работы был ограничен, и необходимы последующие исследования, чтобы определить степень применимости этого подхода», — написали исследователи в своей статье. «Например, размер тестового набора (180 документов, ~1200 абзацев) невелик, и больший тестовый набор более четко определил бы точность метода в этой категории примеров написания».
Регистр — попросил Дезер прокомментировать. ®