Боффинс из Калифорнийского университета в Беркли изучил нераскрытые глубины ChatGPT OpenAI и модели большого языка GPT-4, лежащей в его основе, и обнаружил, что они обучаются на текстах из книг, защищенных авторским правом.
Академики Кент Чанг, Маккензи Крамер, Сандип Сони и Дэвид Бамман описывают свою работу в статье под названием «Говори, память: археология книг, известных ChatGPT/GPT-4».
«Мы обнаружили, что модели OpenAI запомнили обширную коллекцию материалов, защищенных авторским правом, и что степень запоминания связана с частотой, с которой отрывки из этих книг появляются в сети», — объясняют исследователи в своей статье.
Команда опубликовала свой код и данные на GitHub, а список идентифицированных книг можно найти в этом Google Файл документов.
Было обнаружено, что GPT-4 запоминает названия, такие как Гарри Поттер детские книги, Оруэлл Девятнадцать восемьдесят четыре, Властелин колец трилогия, т. Голодные игры книги, Путеводитель автостопщика по Galaxy, 451 градус по Фаренгейту, Игра престолови Дюнасреди прочих.
Авторы отмечают, что в списке преобладают книги научной фантастики и фэнтези, что они связывают с популярностью этих названий в сети. И они отмечают, что запоминание определенных заголовков имеет последующие эффекты. Например, эти модели делают более точные прогнозы в ответ на такие вопросы, как «В каком году был опубликован этот отрывок?» когда они выучили книгу.
Еще одним следствием знакомства модели с научной фантастикой и фэнтези является то, что ChatGPT демонстрирует меньше знаний о произведениях других жанров. Как отмечает газета, она «мало знает о работах с глобальными англоязычными текстами, работах в рамках интерактивного проекта «Черная книга» и лауреатах премии Американской библиотечной ассоциации «Черное собрание»».
Через ТвиттерДэвид Бамман, один из соавторов и доцент Школы информации Калифорнийского университета в Беркли, резюмировал статью следующим образом: «Выводы: открытые модели хороши; по отношению к научной фантастике/фэнтези мы должны думать о том, чей повествовательный опыт закодирован в этих моделях, и как это влияет на другое поведение».
Исследователи не утверждают, что ChatGPT или модели, на которых он построен, содержат полные тексты цитируемых книг — LLM не хранят текст дословно. Скорее, они провели тест под названием «закрытие имени», предназначенный для предсказания одного имени в отрывке из 40–60 токенов (один токен эквивалентен примерно четырем текстовым символам), в котором нет других именованных объектов. Идея состоит в том, что прохождение теста указывает на то, что модель запомнила соответствующий текст.
«Данные, лежащие в основе ChatGPT и GPT-4, принципиально неизвестны вне OpenAI», — объясняют авторы в своей статье. «Мы ни в коем случае не получаем и не пытаемся получить доступ к истинным обучающим данным, лежащим в основе этих моделей, или к каким-либо базовым компонентам систем. Наша работа выполняет вероятностный вывод для измерения знакомства этих моделей с набором книг, но вопрос о том, действительно ли они существуют в обучающих данных этих моделей, не подлежит ответу».
Чтобы на такие вопросы можно было ответить, авторы выступают за использование общедоступных обучающих данных, чтобы поведение модели было более прозрачным. Они взялись за проект, чтобы понять, что запомнили эти модели, поскольку модели ведут себя по-разному при анализе литературных текстов, которые они использовали для обучения.
Я надеюсь, что эта работа поможет дальнейшему продвижению современного уровня ответственного хранения данных.
«Курирование данных все еще очень незрело в машинном обучении», — сказала Маргарет Митчелл, исследователь ИИ и главный специалист по этике Hugging Face. Регистр.
«Не тестируйте свои данные для обучения» — это распространенная пословица в машинном обучении, но она требует тщательного документирования данных; однако надежное документирование данных не является частью культуры машинного обучения. Я надеюсь, что эта работа поможет дальнейшему развитию государства. искусства в ответственном хранении данных».
Компьютерщики из Беркли сосредоточились не столько на последствиях авторского права при запоминании текстов, сколько на природе этих моделей «черного ящика» — OpenAI не раскрывает данные, используемые для их обучения, — и на том, как это влияет на достоверность анализа текста.
Но последствий для авторских прав не избежать, особенно если приложения для генерации текста, построенные на этих моделях, производят отрывки, которые в значительной степени похожи или идентичны текстам, защищенным авторским правом, которые они проглотили.
Земля свободная, дом судебного процесса
Об этом заявил Тайлер Очоа, профессор юридического факультета Университета Санта-Клара в Калифорнии. Регистр он полностью ожидает судебных исков против создателей больших языковых моделей, генерирующих текст, включая OpenAI, Googleи другие.
Очоа сказал, что проблемы с авторскими правами при генерации текста ИИ точно такие же, как и проблемы с генерацией изображений ИИ. Во-первых: является ли копирование больших объемов текста или изображений для обучения модели добросовестным использованием? Ответ на этот вопрос, по его словам, вероятно, да.
Во-вторых: если модель генерирует выходные данные, которые слишком похожи на входные — то, что в статье называется «запоминанием», — является ли это нарушением авторских прав? Ответ на этот вопрос, сказал он, почти наверняка да.
И в-третьих: если вывод текстового генератора ИИ не является копией существующего текста, защищен ли он авторским правом?
Судебные иски против моделей генерации текста AI неизбежны
По действующему законодательству, сказал Очоа, ответ отрицательный, потому что закон об авторском праве США требует человеческого творчества, хотя некоторые страны не согласятся и будут защищать произведения, созданные ИИ. Однако, добавил он, такие действия, как выбор, систематизация и изменение выходных данных модели ИИ, делают защиту авторских прав более правдоподобной.
«До сих пор мы видели судебные иски по первому и третьему вопросам», — сказал Очоа. «До сих пор судебные иски по первому вопросу касались моделей ИИ, генерирующих изображения, но иски против моделей ИИ, генерирующих текст, неизбежны.
«Мы еще не видели никаких судебных исков по второму вопросу. Газета [from the UC Berkeley researchers] демонстрирует, что такое сходство возможно; и, по моему мнению, когда это произойдет, будут судебные иски, и это почти наверняка будет представлять собой нарушение авторских прав».
Очоа добавил: «Несет ли ответственность владелец модели, или лицо, использующее модель, или и то, и другое, зависит от того, в какой степени пользователь должен подсказывать или поощрять модель для достижения результата».
OpenAI не ответил на запрос о комментариях. У него даже нет чат-бота для этого? ®