Google объявляет общедоступные данные хорошей игрой для обучения своего ИИ

    0
    3


    Google обновила свою политику конфиденциальности, заявив, что собирает общедоступные данные из Интернета для обучения своих моделей и сервисов ИИ, включая своего чат-бота Bard и свою поисковую систему, которая теперь предлагает генерировать ответы на запросы на лету.

    Мелким шрифтом в разделе «Исследования и разработки» теперь написано: «Google использует информацию для улучшения наших услуг и разработки новых продуктов, функций и технологий, которые приносят пользу нашим пользователям и общественности. Например, мы используем общедоступную информацию для обучения Googleмодели искусственного интеллекта и создавать продукты и функции, такие как Google Возможности переводчика, барда и облачного ИИ».

    Интересно, Рег сотрудники за пределами США не могли видеть текст, цитируемый по приведенной выше ссылке. Однако эта PDF-версия Googleполитика гласит: «Мы можем собирать общедоступную информацию в Интернете или из других общедоступных источников, чтобы помочь в обучении Googleмодели искусственного интеллекта и создавать продукты и функции, такие как Google Возможности переводчика, барда и облачного ИИ».

    Изменения определяют Googleвозможности для обучения ИИ. Ранее в политике упоминались только «языковые модели» и Google Переводить. Но формулировка была изменена, чтобы охватить «модели ИИ» и включает Bard и другие системы, созданные как приложения на его облачной платформе.

    А Google представитель сказал Регистр что обновление принципиально не изменило способ обучения своих моделей ИИ.

    «Наша политика конфиденциальности уже давно прозрачна, что Google использует общедоступную информацию из открытой сети для обучения языковых моделей для таких сервисов, как Google Переводить. Это последнее обновление просто уточняет, что в него также включены новые сервисы, такие как Bard. Мы включаем принципы и меры защиты конфиденциальности в разработку наших технологий искусственного интеллекта в соответствии с нашими Принципами искусственного интеллекта», — говорится в заявлении представителя.

    Разработчики годами исследовали Интернет, фотоальбомы, книги, социальные сети, исходный код, музыку, статьи и многое другое, чтобы собирать обучающие данные для систем ИИ. Однако этот процесс вызывает споры, учитывая, что некоторые материалы защищены авторским правом и привели к судебным искам. Некоторые люди недовольны тем, что их собственный контент не только используется для создания систем машинного обучения, которые копируют их работу и, таким образом, потенциально угрожают их средствам к существованию, но и тем, что результаты моделей слишком близки к нарушению авторских прав или лицензий из-за повторения этих обучающих данных. неизменный.

    Эти разработчики могут утверждать, что их усилия подпадают под добросовестное использование, или что то, что выводят модели, является новой формой работы, а не копией исходных обучающих данных, это горячо обсуждаемый вопрос.

    Например, Getty Images подала в суд на Stability AI за сбор и неправильное использование миллионов изображений со своего веб-сайта для обучения своих инструментов преобразования текста в изображение. Между тем, OpenAI и ее владелец Microsoft также столкнулись с многочисленными судебными исками, обвиняя их в ненадлежащем извлечении «300 миллиардов слов из Интернета,« книг, статей, веб-сайтов и сообщений, включая личную информацию, полученную без согласия »» и краже исходного кода. из общедоступных репозиториев для создания инструмента программирования пар ИИ GitHub Copilot.

    GoogleПредставитель компании отказался уточнить, будет ли рекламный и поисковый гигант собирать общедоступные данные, защищенные авторским правом, или сообщения в социальных сетях для обучения своих систем.

    Теперь, когда люди лучше информированы о том, как обучаются модели ИИ, некоторые интернет-компании начали взимать плату с разработчиков за доступ к их данным. Stack Overflow, Reddit и Twitter, например, в этом году ввели плату или новые правила доступа к своему контенту через API. Другие сайты, такие как Shutterstock и Getty, решили лицензировать свои изображения для создателей моделей AI и сотрудничают с такими компаниями, как Meta и Nvidia. ®

    Предыдущая статьяДраки Маска и Цукерберга в клетке не будет
    Следующая статьяАналитик: iPhone 15 поступит в массовое производство в августе, ожидается, что Apple
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.