Технологические гиганты уклоняются от вопросов о правилах авторского права LLM

От

15.11.2023

На этой неделе в парламенте Великобритании Microsoft и Meta уклонились от вопроса о том, должны ли авторы платить за использование их материалов, защищенных авторским правом, для обучения больших языковых моделей.

Технологические гиганты, чей совокупный доход значительно превышает 200 миллиардов долларов, подверглись критике со стороны Комитета по коммуникациям и цифровым технологиям Палаты лордов, когда в центре внимания оказался вопрос об авторском праве.

В сентябре Гильдия авторов, торговая ассоциация публикующихся писателей, и 17 авторов подали коллективный иск в США по поводу использования OpenAI их материалов для создания своих услуг на базе LLM.

Генеральный директор OpenAI Сэм Альтман с тех пор заявил, что компания покроет судебные издержки своих клиентов по искам о нарушении авторских прав, а не удалит материал из своих обучающих наборов.

Microsoft инвестировала в OpenAI 13 миллиардов долларов. Компания поддерживает расширенное партнерство с разработчиком машинного обучения, обеспечивая поддержку своих рабочих нагрузок на облачной платформе Azure и использование ее моделей для запуска автоматизированного помощника Copilot.

Выступая вчера перед лордами, Оуэн Лартер, директор по государственной политике Управления ответственного ИИ Microsoft, сказал: «Важно понимать, что такое большая языковая модель. Это большая модель, обученная на текстовых данных и изучающая ассоциации между различными идеями. Это не обязательно что-то всасывает снизу».

Он сказал, что должна быть «структура», обеспечивающая некоторую защиту материалов, защищенных авторским правом, и Microsoft возьмет на себя ответственность за любое нарушение прав со стороны ее систем, основанных на LLM. Но он также сказал, что Microsoft поддерживает недавний отчет Валанса о «проинновационном» законе об искусственном интеллекте в Великобритании, который выступает за исключения текста и данных в моделях обучения.

Но Дональд Майкл, лорд Фостер из Бата, настаивал на том, согласится ли он с тем, что, если компания использует материалы, защищенные авторским правом, для создания LLM с целью получения прибыли, владелец авторских прав должен получить возмещение.

Директор Microsoft сказал: «Очень важно понимать, что вам необходимо обучать эти большие языковые модели на больших наборах данных, если вы хотите, чтобы они работали эффективно, если вы хотите, чтобы они были безопасными и надежными… Есть также некоторые проблемы с конкуренцией. [in making sure] что обучение больших моделей доступно каждому. Если вы зайдете слишком далеко по пути, на котором очень сложно получить данные для обучения моделей, то внезапно возможность сделать это станет прерогативой только очень крупных компаний».

Уже ведутся судебные разбирательства по поводу того, как наборы обучающих данных Books1, Books2 и Books3, которые фактически являются пиратскими материалами, защищенными авторским правом, использовались для создания популярных программ LLM.

Meta стоит за Llama 2 LLM, которая масштабируется до 70 миллиардов параметров. Гигант социальных сетей продвигает эту модель как с открытым исходным кодом, хотя приверженцы FOSS указывают на некоторые оговорки в ее подходе.

Выступая перед лордами, Роб Шерман, вице-президент и заместитель директора по политике конфиденциальности Meta, заявил, что компания будет соблюдать закон.

Но он добавил, что «поддержание широкого доступа к информации в Интернете и информации, в том числе для использования в подобных инновациях, весьма важно. Я поддерживаю предоставление правообладателям возможности управлять тем, как используется их информация».

«Я немного осторожно отношусь к идее принуждения компаний, создающих ИИ, заключать индивидуальные соглашения с отдельными правообладателями или требовать платить за контент, который не имеет для них экономической ценности».

На прошлой неделе Дэн Конвей, генеральный директор Ассоциации издателей Великобритании, сообщил комитету, что большие языковые модели нарушают контент, защищенный авторским правом, в «абсолютно массовом масштабе».

«Мы знаем об этом в издательской индустрии благодаря базе данных Books3, в которой перечислено 120 000 пиратских наименований книг, которые, как мы знаем, были использованы большими языковыми моделями», — сказал он. «Мы знаем, что контент поглощается в огромных масштабах большими языковыми моделями. LLM действительно нарушают авторские права на многих этапах процесса с точки зрения того, когда они собирают эту информацию, как они ее хранят и как они обрабатывают эту информацию. Закон об авторском праве нарушается в огромных масштабах».

На том же слушании доктор Хейли Бошер, преподаватель права интеллектуальной собственности в Лондонском университете Брунеля, заявила, что не представляет технологические фирмы или создателей контента, и предложила нейтральную точку зрения.

«Принцип того, когда вам нужна лицензия, а когда нет, ясен, — сказала она, — и воспроизведение произведения, защищенного авторским правом, без разрешения потребует лицензии или иным образом станет нарушением прав. Именно это делает ИИ. на разных этапах процесса: прием, запуск программы и, возможно, даже вывод.

«Некоторые разработчики искусственного интеллекта и технологий выступают за разную интерпретацию закона. Я не представляю ни одну из этих сторон. Я эксперт в области авторского права, и с моей позиции я понимаю, чего должно достичь авторское право и как оно этого достигает. , вам потребуется лицензия на эту деятельность». ®

Технологические гиганты уклоняются от вопросов о правилах авторского права LLM

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Загнивание Red Hat с открытым исходным кодом началось с появлением IBM

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Getting on board with AI

Почему пришло время переосмыслить свою облачную стратегию –

Путь к инновациям с помощью ИИ и машинного обучения –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Загнивание Red Hat с открытым исходным кодом началось с появлением IBM

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА