Выявление научного мошенничества может стать намного сложнее благодаря ИИ

    0
    13

    [ad_1]

    Особенность Генеративный ИИ ставит интересные задачи перед академическими издателями, борющимися с мошенничеством в научных статьях, поскольку технология показывает потенциал обмануть рецензирование людей.

    Опишите образ для DALL-E, Stable Diffusion и Midjourney, и они создадут его за считанные секунды. Эти системы преобразования текста в изображения быстро совершенствовались за последние несколько лет, и то, что изначально начиналось как исследовательский прототип, производя в 2021 году безобидные и удивительно причудливые иллюстрации редиски дайкон, выгуливающей собак, с тех пор превратилось в коммерческое программное обеспечение, созданное миллиардами человек. долларовых компаний, способных генерировать все более реалистичные изображения.

    Эти модели ИИ могут создавать реалистичные изображения человеческих лиц, объектов и сцен, и, похоже, это вопрос времени, когда они также научатся создавать убедительные научные изображения и данные. Модели преобразования текста в изображение теперь широко доступны, довольно дешевы в использовании, и они могут помочь изворотливым ученым подделывать результаты и легче публиковать фиктивные исследования.

    Манипуляции с изображениями уже вызывают серьезную озабоченность академических издателей, поскольку в последнее время это наиболее распространенная форма научного правонарушения. Авторы могут использовать всевозможные приемы, такие как переворачивание, вращение или обрезка частей одного и того же изображения для подделки данных. Редакторы обмануты, веря, что все представленные результаты реальны, и опубликуют свою работу.

    Многие издатели теперь обращаются к программному обеспечению ИИ, пытаясь обнаружить признаки дублирования изображений в процессе проверки. В большинстве случаев изображения были ошибочно продублированы учеными, которые перепутали свои данные, но иногда это используется для откровенного мошенничества.

    Но как только издатели начинают контролировать дублирование изображений, появляется еще одна угроза. У некоторых исследователей может возникнуть соблазн использовать генеративные модели ИИ для создания поддельных данных. На самом деле, есть основания полагать, что подставные ученые уже этим занимаются.

    Изображения, сделанные искусственным интеллектом, замечены в газетах?

    В 2019 году DARPA запустило свою программу Semantic Forensics (SemaFor), финансируя исследователей, разрабатывающих криминалистические инструменты, способные обнаруживать созданные ИИ средства массовой информации для борьбы с дезинформацией.

    Представитель оборонного исследовательского агентства дяди Сэма подтвердил, что обнаружил фальшивые медицинские изображения, опубликованные в реальных научных статьях, которые, по-видимому, были созданы с использованием искусственного интеллекта. До моделей преобразования текста в изображение были популярны генеративно-состязательные сети. DARPA осознало, что эти модели, наиболее известные своей способностью создавать дипфейки, могут также подделывать изображения медицинских сканов, клеток или другие типы изображений, часто встречающиеся в биомедицинских исследованиях.

    «Ландшафт угроз меняется довольно быстро, — сказал Уильям Корви, руководитель программы SemaFor. Регистр. «Эта технология становится повсеместной для благих целей». Корви сказал, что агентство добилось определенных успехов в разработке программного обеспечения, способного обнаруживать изображения, созданные GAN, и инструменты все еще находятся в стадии разработки.

    Ландшафт угроз меняется довольно быстро

    «У нас есть результаты, которые предполагают, что вы можете обнаруживать «родных братьев и сестер» генеративного механизма, который вы научились обнаруживать ранее, независимо от содержания сгенерированных изображений. , все, от метаданных, статистических аномалий до более визуальных представлений», — сказал он.

    Некоторые аналитики изображений, изучающие данные в научных статьях, также сталкивались с тем, что выглядит как изображения, сгенерированные GAN. GAN — это генерирующая состязательная сеть, тип системы машинного обучения, которая может генерировать записи, музыку, изображения и многое другое.

    Например, Дженнифер Бирн, профессор молекулярной онкологии Сиднейского университета, и Яна Кристофер, аналитик целостности изображений в журнале EMBO Press, наткнулись на странный набор изображений, который появился в 17 исследованиях, связанных с биохимией.

    На снимках была изображена серия полос, обычно известных как вестерн-блоты, которые указывают на присутствие в образце определенных белков, которые, как ни странно, имели одинаковый фон. Этого не должно было случиться.

    Рисунок A из статьи Бирна-Кристофера о подозрительных бумагах.

    Примеры повторяющихся фонов на изображениях вестерн-блоттинга, выделенных красными и зелеными контурами… Источник: Бирн, Кристофер, 2020 г.

    В 2020 году Бирн и Кристофер пришли к выводу, что подозрительно выглядящие изображения, вероятно, были созданы в рамках работы бумажной фабрики: попытка массового выпуска документов по биохимическим исследованиям с использованием поддельных данных, их рецензирование и публикация. Такая авантюра может быть предпринята, например, для того, чтобы помочь ученым, которые получают компенсацию в зависимости от их принятой работы, или помочь отделу выполнить квоту опубликованных отчетов.

    «Кляксы в примере, показанном в нашей статье, скорее всего, сгенерированы компьютером», — сказал Кристофер. Регистр.

    Я часто сталкиваюсь с фальшивыми изображениями, преимущественно с вестерн-блотами, но все чаще и с микроскопическими изображениями.

    «Просматривая документы как до, так и после публикации, я часто сталкиваюсь с фальшивыми изображениями, преимущественно с вестерн-блотами, но все чаще и с микроскопическими изображениями. Я прекрасно понимаю, что многие из них, скорее всего, созданы с использованием GAN».

    Элизабет Бик, внештатный исследователь изображений, также часто может сказать, когда изображения подвергались манипуляциям. Она внимательно изучает рукописи научных статей, ищет повторяющиеся изображения и помечает эти проблемы для дальнейшего изучения редакторами журналов. Но бороться с поддельными изображениями сложнее, когда они полностью сгенерированы алгоритмом.

    Она указала, что, хотя повторяющийся фон на изображениях, выделенных в исследовании Бирна и Кристофера, является явным признаком подделки, сами настоящие вестерн-блоты уникальны. Программному обеспечению компьютерного зрения, которое Бик использует для сканирования документов и выявления подделок изображений, было бы трудно пометить эти полосы, потому что настоящие пятна не дублируются.

    «Мы никогда не найдем совпадений. Все они, я считаю, искусственно созданы. Как именно, я не уверена», — сказала она. Регистр.

    Создавать поддельные изображения стало проще с помощью новейших генеративных моделей искусственного интеллекта.

    GAN в значительной степени были вытеснены диффузионными моделями. Эти системы генерируют уникальные изображения и поддерживают современные программы преобразования текста в изображения, включая DALL-E, Stable Diffusion и Midjourney. Они учатся сопоставлять визуальное представление объектов и понятий с естественным языком и могут значительно снизить барьер для академического списывания.

    Ученые могут просто описать, какой тип ложных данных они хотят получить, и эти инструменты сделают это за них. Однако на данный момент они еще не могут создавать реалистичные научные изображения. Иногда инструменты создают кластеры клеток, которые на первый взгляд выглядят убедительно, но с треском проваливаются, когда дело доходит до вестерн-блоттинга.

    Вот что могут генерировать эти программы ИИ:

    У Уильяма Гибсона — врача-ученого и научного сотрудника в области медицинской онкологии, а не известного автора — есть и другие примеры. здесьвключая то, как сегодняшние модели борются с концепцией вестерн-блоттинга.

    Однако технология становится только лучше, поскольку разработчики обучают более крупные модели на большем количестве данных.

    Дэвид Бимлер, еще один эксперт по распознаванию манипуляций с изображениями в научных статьях, более известный как Смут Клайд, сказал нам: «Бумажные фабрики будут иллюстрировать свою продукцию любым самым дешевым и быстрым методом, полагаясь на слабые места в процессе рецензирования».

    «Они могли просто скопировать [western blots] из старых документов, но даже это требует работы по поиску старых документов. На данный момент, я подозреваю, что использование GAN все еще требует некоторых усилий. Хотя это изменится», — добавил он.

    В настоящее время DARPA планирует расширить свою программу SemaFor для изучения систем преобразования текста в изображения. «Такого рода модели являются довольно новыми и, хотя они и находятся в сфере охвата, не являются частью нашей текущей работы над SemaFor», — сказал Корви.

    «Однако оценщики SemaFor, вероятно, рассмотрят эти модели на следующем этапе оценки программы, который начнется осенью 2023 года».

    Между тем, качество научных исследований снизится, если академические издатели не смогут найти способы обнаружения поддельных изображений, созданных искусственным интеллектом, в статьях. В лучшем случае эта форма академического мошенничества будет ограничена только схемами бумажных фабрик, которым все равно не уделяется много внимания. В худшем случае это повлияет даже на самые авторитетные журналы, а ученые с благими намерениями потратят время и деньги на погоню за ложными идеями, которые они считают истинными. ®



    [ad_2]

    Предыдущая статьяВозможности HarmonyOS 3 для часов Huawei Watch серии GT 3
    Следующая статьяChatGPT изобрел новую умную игру, которая может заставить Вас отказаться от Wordle
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.