Иск NY Times возлагает на OpenAI и Microsoft “ответственность за

От

04.01.2024

В иске, поданном на прошлой неделе в федеральный суд Манхэттена газетой New York Times, утверждается, что ответчики – компании Microsoft и OpenAI – использовали миллионы ее статей для обучения и создания своих больших языковых моделей (LLM) и других продуктов. Times требует возмещения ущерба на миллиарды долларов, хотя и не называет конкретных цифр.

Но да, в случае победы она будет претендовать на довольно крупную выплату.

“Закон не допускает такого систематического и конкурентного нарушения прав, которое совершили ответчики”, – говорится в официальной жалобе (pdf предупреждение). “Этот иск направлен на то, чтобы привлечь их к ответственности за миллиарды долларов в виде установленных законом и реальных убытков, которые они должны выплатить за незаконное копирование и использование уникальных ценных работ The Times”.

В иске говорится, что New York Times вела переговоры с ответчиками “в течение нескольких месяцев” и что она стремилась достичь соглашения “в соответствии со своей историей продуктивного сотрудничества с крупными технологическими платформами, чтобы разрешить использование своего контента в новых цифровых продуктах”. Идея, изложенная в судебном документе, заключается в том, чтобы получить справедливую стоимость от своего вклада в обучение, поскольку контенту The Times был придан вес во время обучения, а также “способствовать продолжению здоровой новостной экосистемы и помочь развитию технологии GenAI ответственным способом, который приносит пользу обществу и поддерживает хорошо информированную общественность”.

В свою очередь, в статье The New York Times цитируется заявление представителя OpenAI Линдси Хелд, в котором говорится, что компания считает, что переговоры были конструктивными, и “удивлена и разочарована” иском.

“Мы надеемся, что найдем взаимовыгодный способ работать вместе”, – цитируются слова представителя компании, – “как мы делаем это со многими другими издателями”.

Одна из самых интригующих частей иска, и, возможно, та часть, которая заставила The Times засуетиться, заключается в том, что, похоже, OpenAI придавал особое значение контенту издательства при обучении своих магистров.

В частности, в иске говорится, что во время обучения GPT-3 один из ключевых наборов данных – взвешенный как набор высокого качества – использовал почти 210 тысяч уникальных URL-адресов New York Times, что составило 1,23% от всех источников в наборе данных.

Скриншот Microsoft Copilot — (Image credit: Microsoft)

Однако самый большой и наиболее взвешенный набор данных, использованный для обучения GPT-3, включает “не менее 16 миллионов уникальных записей контента из журналов The Times: News, Cooking, Wirecutter и The Athletic”.

Далее в статье также говорится о том, что сама компания OpenAI заявила, что наборы данных, которые она считает наиболее качественными, затем чаще выбираются в процессе обучения модели. “По собственному признанию OpenAI, – говорится в судебном документе, – высококачественный контент, включая контент из The Times, был более важным и ценным для обучения моделей GPT по сравнению с контентом, взятым из других, менее качественных источников”.

Это не первый иск против OpenAI за нарушение авторских прав при обучении ее LLM, как отмечает The Times, также был подан иск от 17 авторов, включая Джорджа РР Мартина и Джона Гришема, против компании за “систематическое воровство в массовом масштабе”, а также иск от Getty против Stability AI, создателей генеративного ИИ, Stable Diffusion, за использование ее изображений при обучении модели.

Иск NY Times возлагает на OpenAI и Microsoft “ответственность за

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Советы по извлечению из Rainbow Six: как получить максимальную отдачу от...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Diablo 4’s lead live game designer says difficulty is ‘a tricky

I thought I knew my keyboard until I played the Initial D typing game,

Last Epoch’s excellent new update proves we’re in a golden age of

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Советы по извлечению из Rainbow Six: как получить максимальную отдачу от...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА