Согласно новому отчету, опубликованному сегодня, ряд технологических гигантов, включая Apple, обучали модели искусственного интеллекта на видеороликах YouTube без согласия их создателей.
Они сделали это, используя файлы субтитров, загруженные третьей стороной из более чем 170 000 видео. Среди пострадавших создателей — технический обозреватель Маркис Браунли (MKBHD), MrBeast, PewDiePie, Стивен Колберт, Джон Оливер и Джимми Киммел…
Файлы субтитров фактически являются расшифровками видеоконтента.
Проводной отчеты.
Расследование Proof News показало, что некоторые из самых богатых компаний ИИ в мире использовали материалы из тысяч видеороликов YouTube для обучения ИИ. Компании сделали это, несмотря на правила YouTube, запрещающие собирать материалы с платформы без разрешения.
В ходе нашего расследования было установлено, что субтитры из 173 536 видеороликов YouTube, взятые с более чем 48 000 каналов, использовались крупными игроками Кремниевой долины, включая Anthropic, Nvidia, Apple и Salesforce.
Сообщается, что загрузки были выполнены некоммерческой организацией EleutherAI, которая утверждает, что помогает разработчикам обучать модели ИИ. Хотя целью, по-видимому, было предоставление учебных материалов небольшим разработчикам и ученым, набор данных также использовался несколькими технологическими гигантами, включая Apple.
Согласно исследовательской работе, опубликованной EleutherAI, набор данных является частью сборника, выпущенного некоммерческой организацией под названием Pile. […]
Большинство наборов данных Pile доступны и открыты для любого в Интернете, у кого достаточно места и вычислительной мощности для доступа к ним. Академики и другие разработчики за пределами Big Tech использовали набор данных, но они были не единственными.
Apple, Nvidia и Salesforce — компании, оцениваемые в сотни миллиардов и триллионы долларов, — описывают в своих исследовательских работах и постах, как они использовали Pile для обучения ИИ. Документы также показывают, что Apple использовала Pile для обучения OpenELM, высококлассной модели, выпущенной в апреле, за несколько недель до того, как компания объявила, что добавит новые возможности ИИ в iPhone и MacBook.
Проводной сообщается, что на момент написания статьи Apple не ответила на запрос о комментарии.
Мнение 9to5Mac
Здесь важно подчеркнуть, что Apple не загружала данные сама, а это сделала EleutherAI. Именно эта организация, похоже, нарушила условия YouTube.
Тем не менее, хотя Apple и другие названные компании, вероятно, использовали общедоступный набор данных добросовестно, это хорошая иллюстрация юридического минного поля, созданного скрапингом веба для обучения систем ИИ. Было несколько примеров того, как системы ИИ плагиатили целые абзацы текста, когда их спрашивали о нишевых темах, и опасность использования материала без разрешения только увеличивается, когда компании используют наборы данных, составленные третьими лицами.
Мы обратились в Apple за комментарием и сообщим вам ответ.
Скриншот: MKBHD