Утверждается, что GitHub настроил своего помощника по программированию Copilot, чтобы он генерировал небольшие вариации введенного обучающего кода, чтобы предотвратить пометку выходных данных как прямую копию лицензионного программного обеспечения.
Это утверждение появилось в четверг в измененной жалобе [PDF] против Microsoft, GitHub и OpenAI из-за задокументированной склонности Copilot к воспроизведению общедоступного лицензионного кода разработчиков с открытым исходным кодом.
В иске, первоначально поданном в ноябре прошлого года от имени четырех неназванных истцов («Дж. Доу»), утверждается, что Copilot — инструмент предложения кода, созданный на основе модели OpenAI Codex и коммерциализированный GitHub Microsoft — был обучен на общедоступном коде таким образом, что нарушает закон об авторском праве и требования лицензирования программного обеспечения и представляет чужой код как свой собственный.
Microsoft, GitHub и OpenAI пытались закрыть дело, но им удалось лишь избавиться от некоторых претензий. Судья оставил нетронутыми основные вопросы авторского права и лицензирования и разрешил истцам повторно подать несколько других претензий с более подробной информацией.
В измененной жалобе, которая теперь охватывает восемь пунктов вместо двенадцати, сохраняются обвинения в нарушении Закона об авторском праве в цифровую эпоху, нарушении контракта (нарушение лицензии на открытый исходный код), несправедливом обогащении и недобросовестной конкуренции.
Он добавляет несколько других утверждений вместо отправленных на доработку: нарушение контракта (продажа лицензионных материалов в нарушение политик GitHub), преднамеренное вмешательство в предполагаемые экономические отношения и небрежное вмешательство в предполагаемые экономические отношения.
В пересмотренной жалобе добавлен еще один истец «Дж. Доу», код которого якобы воспроизвел второй пилот. И он включает в себя образцы кода, написанные истцами, которые Copilot предположительно воспроизвел дословно, но только для суда — образцы кода были отредактированы, чтобы предотвратить идентификацию истцов.
Судья, рассматривающий дело, разрешил истцам оставаться анонимными в судебных документах из-за реальных угроз насилия. [PDF] направлено на их адвоката. Регистр понимает, что истцы известны ответчикам.
Хитрый план?
В судебном документе, поданном в четверг, говорится, что в июле 2022 года в ответ на публичную критику Copilot GitHub представил настраиваемый пользователем фильтр Copilot под названием «Предложения, соответствующие общедоступному коду», чтобы не видеть предложения программного обеспечения, дублирующие работу других людей.
«Когда фильтр включен, GitHub Copilot проверяет предложения кода с окружающим их кодом длиной около 150 символов по общедоступному коду на GitHub», — поясняется в документации GitHub. «Если есть совпадение или близкое совпадение, предложение не будет показано вам».
Однако в жалобе утверждается, что фильтр по сути бесполезен, поскольку он проверяет только точные совпадения и ничего не делает для обнаружения слегка измененного вывода. На самом деле, истцы предполагают, что GitHub пытается обойти нарушение авторских прав и лицензий, изменяя вывод Copilot так, чтобы он не выглядел точно скопированным.
«В руках GitHub склонность к небольшим косметическим изменениям в выводе Copilot — это функция, а не ошибка», — говорится в исправленной жалобе. «Эти небольшие косметические вариации означают, что GitHub может предоставлять клиентам Copilot неограниченное количество измененных копий Лицензионных материалов, даже не активируя фильтр дословного кода Copilot».
В судебном иске указывается, что модели машинного обучения, такие как Copilot, имеют параметр, который контролирует степень изменения результатов.
«По информации и убеждениям, GitHub оптимизировал настройку температуры Copilot, чтобы как можно чаще создавать небольшие косметические вариации Лицензионных материалов, чтобы GitHub мог предоставлять пользователям Copilot код, который работает так же, как дословный код, при этом заявляя, что Copilot выдает дословный код только в одном проценте случаев», — говорится в исправленной жалобе. «Copilot — это гениальный метод пиратства программного обеспечения».
GitHub от Microsoft в электронном письме настаивал на обратном.
«Мы твердо верим, что ИИ изменит то, как мир создает программное обеспечение, что приведет к повышению производительности и, самое главное, сделает разработчиков более счастливыми», — сказал представитель компании. Регистр. «Мы уверены, что Copilot соблюдает действующее законодательство, и мы с самого начала стремились к ответственному внедрению инноваций с Copilot. Мы будем продолжать инвестировать и выступать за опыт разработчиков на основе ИИ в будущем».
OpenAI не ответил на запрос о комментариях. ®