Мнение Бесплатное программное обеспечение и лицензии с открытым исходным кодом эволюционировали для работы с кодом в 1970-х и 80-х годах. Сегодня он должен снова трансформироваться, чтобы иметь дело с моделями ИИ.
ИИ родился из программного обеспечения с открытым исходным кодом. Но бесплатное программное обеспечение и лицензии с открытым исходным кодом, основанные на законе об авторском праве, для работы с кодом программного обеспечения не подходят для нейронных сетей и наборов данных большой языковой модели (LLM), которые питают программное обеспечение с открытым исходным кодом ИИ. Поскольку многие наборы данных для программирования, в частности, основаны на свободном программном обеспечении и открытом исходном коде, необходимо что-то делать. И именно поэтому Стефано Маффулли, исполнительный директор Open Source Initiative (OSI), и множество других лидеров открытого исходного кода и искусственного интеллекта работают над объединением лицензий искусственного интеллекта и открытого исходного кода таким образом, чтобы это имело смысл для обоих.
Чтобы вы не подумали, что это какая-то теоретическая юридическая дискуссия, не имеющая никакого отношения к реальному миру, подумайте еще раз. Учитывать Дж. Доу 1 и др. против GitHub. Истцы по этому делу в Северном окружном суде США в Калифорнии утверждают, что Microsoft, OpenAI и GitHub через свою коммерческую систему на основе ИИ, Codex OpenAI и Copilot GitHub, украли их открытый исходный код. Результат? Истцы утверждают, что «предлагаемый» код часто состоит из почти идентичных копий кода, извлеченных из общедоступных репозиториев GitHub, без обязательной ссылки на лицензию с открытым исходным кодом.
Это дело продолжается. Измененная жалоба включает обвинения в нарушении Закона об авторском праве в цифровую эпоху, нарушении контракта (нарушение лицензии на открытый исходный код), несправедливом обогащении и требованиях о недобросовестной конкуренции, а также в нарушении контракта (продажа лицензионных материалов в нарушение политики GitHub).
Не думайте, что такого рода судебный процесс — это проблема только Microsoft. Это не. Шон О’Брайен, преподаватель кибербезопасности Йельской школы права и основатель Йельской лаборатории конфиденциальности, сказал моему коллеге Дэвиду Гевиртцу: «Я считаю, что скоро появится целая подиндустрия троллинга, отражающая патентных троллей, но на этот раз вокруг ИИ. Создается цикл обратной связи по мере того, как все больше авторов используют инструменты на основе ИИ для отправки кода по проприетарным лицензиям.
Он прав. Я покрывал патентных троллей на протяжении десятилетий. Я гарантирую, что лицензионные тролли придут за «вашим» кодом ChatGPT и Copilot.
Некоторые люди, такие как Феликс Реда, немецкий исследователь и политик, утверждают, что весь код, созданный ИИ, является общественным достоянием. прокурор США Ричард Санталеса, один из основателей SmartEdgeLaw Group, заметил Гевирцу, что существуют проблемы с контрактами и авторским правом. Это не одно и то же. Санталеса считает, что компании, производящие код, сгенерированный ИИ, «как и все другие их объекты интеллектуальной собственности, будут считать предоставленные ими материалы, включая код, сгенерированный ИИ, своей собственностью». В любом случае, общедоступный код — это не то же самое, что открытый исходный код.
Вдобавок ко всему этому существует целый вопрос о том, как следует лицензировать наборы данных. Существует много «открытых» наборов данных под многочисленными лицензиями с открытым исходным кодом, но обычно они не подходят.
В нашей беседе Маффулли из Open Source Initiative подробно рассказал о том, как различные артефакты, созданные системами искусственного интеллекта и машинного обучения, подпадают под действие различных законов и правил. Сообщество открытого исходного кода должно определить, какие законы лучше всего служат их интересам. Маффулли сравнил нынешнюю ситуацию с концом 70-х и 80-ми годами, когда программное обеспечение стало отдельной дисциплиной, а авторское право стало применяться к исходному и двоичному кодам.
Сегодня мы находимся на похожем перекрестке. Программы искусственного интеллекта, такие как TensorFlow, PyTorch и Hugging Face Hub, хорошо работают под их лицензиями с открытым исходным кодом. Новые артефакты ИИ — это отдельная история. Наборы данных, модели, веса и т. д. не вписываются в традиционную модель авторского права. Маффулли утверждал, что техническое сообщество должно разработать что-то новое, что лучше соответствует нашим целям, а не полагаться на «хаки».
В частности, лицензии с открытым исходным кодом, предназначенные для программного обеспечения, отметил Маффулли, могут не подходить для артефактов ИИ. Например, в то время как широкие свободы лицензии MIT потенциально могут применяться к модели, возникают вопросы в отношении более сложных лицензий, таких как Apache или GPL. Маффулли также рассмотрел проблемы применения принципов открытого исходного кода в таких чувствительных областях, как здравоохранение, где правила доступа к данным создают уникальные препятствия. Краткая версия этого заключается в том, что медицинские данные не могут быть открытыми.
В то же время большинство коммерческих наборов данных LLM представляют собой черные ящики. Мы буквально не знаем, что в них. Таким образом, мы оказываемся, по выражению Electronic Frontier Foundation (EFF), в ситуации, когда у нас есть «Мусор на входе, Евангелие на выходе». Нам нужны, заключает EFF, открытые данные.
Таким образом, OSI, сказал Маффулли, вместе с Open Forum Europe, Creative Commons, Wikimedia Foundation, Hugging Face, GitHub, Linux Foundation, ACLU Mozilla и Internet Archive работают над черновиком для определения общего понимания открытого исходные принципы ИИ. Это будет иметь «критическое значение в переговорах с законодательными органами». Даже сейчас правительственные учреждения ЕС, США и Великобритании изо всех сил пытаются разработать регулирование ИИ, и они ужасно не оснащены для решения этих проблем.
В заключение Стефано сказал, что мы должны начать с «возвращения к основам», Манифеста GNU, который предшествует большинству лицензий и устанавливает «Полярную звезду» для движения за открытый исходный код. Маффулли предположил, что его принципы остаются на удивление актуальными применительно к системам ИИ. Сосредоточившись на основных принципах, мы сможем лучше ориентироваться в этом сложном пересечении ИИ и открытого исходного кода. ®