GoogleДанные обучения C4 ML взяты из расистских источников 4chan

    0
    2


    Проблемный, расистский и порнографический веб-контент, похоже, используется для обучения Googleбольшие языковые модели, несмотря на попытки отфильтровать слои токсичного и вредоносного текста.

    Исследование, проведенное The Washington Post и Институтом искусственного интеллекта Аллена, проанализировало Googleогромный общедоступный набор данных C4, выпущенный для академических исследований, чтобы лучше понять, какие типы веб-сайтов обычно очищаются для обучения больших языковых моделей.

    Набор данных C4 использовался для обучения GoogleT5 Text-to-Text Transfer Transformer, а также Big Language Model Meta AI (LLaMA) от Facebook, вариант которого вызвал тревогу.

    Похоже, что C4 получил материалы, которые используются для создания систем машинного обучения следующего поколения. Это потенциально может привести к тому, что эти системы будут вести себя ненадлежащим образом и ненадежно.

    Обычный регистр читатели должны знать, что мы снова и снова указывали на проблемы с обучающими наборами данных, такие как ужасная изнанка часто цитируемого набора, курируемого MIT.

    Последний зонд

    Аналитики Института Поста и Аллена составили рейтинг 10 миллионов лучших веб-сайтов, включенных в C4, сопоставив текст, который появился в качестве интернет-контента. Хотя C4 — это уменьшенная и более чистая версия набора данных Common Crawl, который содержит текст с миллиардов веб-сайтов, он по-прежнему содержит нежелательные материалы из темных уголков Интернета.

    Расистские, анти-трансгендерные и токсичные тексты были скопированы с таких веб-сайтов, как портал ненависти к расам Stormfront, доксинг-форум Kiwi Farms и доска токсичных сообщений 4chan. Поэтому неудивительно, что языковые модели, основанные на этом корпусе, могут генерировать неприемлемый контент, говорить о теориях заговора или вызывать сомнительные идеологии.

    C4 также состоит из веб-сайтов, на которых размещена личная информация, такая как базы данных регистрации избирателей. На фоне этого несколько регулирующих органов в Италии, Канаде, Испании и Франции с тех пор начали расследования в отношении ChatGPT OpenAI из-за проблем с конфиденциальностью данных, поскольку модель может принимать и генерировать конфиденциальную информацию.

    Большие языковые модели, лежащие в основе чат-ботов с искусственным интеллектом, не являются интеллектуальными или сознательными, какими бы волшебными они ни казались: они пишут, предсказывая поток слов и предложений в ответ на подсказки, вопросы и инструкции от пользователей или даже других ботов. Это включает в себя использование гор данных, на которых они были обучены, и обучение на них, чтобы подражать тому, что написал бы человек.

    Таким образом, эти прогнозы отражают закономерности типов текстов, создаваемых человечеством, таких как сообщения в Интернете, новостные статьи, поэзия и романы, которые помещаются в обширные обучающие наборы данных.

    Эти системы не могут отличить факты от вымысла, получают огромные объемы данных, взятых из Интернета, и могут давать неточные результаты, а также извергать информацию.

    Компании, создающие большие языковые модели, пытаются отфильтровать нежелательный контент на этапах обучения и вывода, хотя их процессы проверки несовершенны. Что также расстраивает, так это то, что создатели коммерческих моделей ИИ, таких как ChatGPT от OpenAI, новый Bing от Microsoft или GoogleЧат Барда — не всегда раскрывайте, как они получали, очищали и обрабатывали свои тренировочные данные.

    К счастью, набор данных C4 не так плох, как другие: он в основном содержит материалы, взятые с более безобидных веб-сайтов, охватывающих журналистику, разработку программного обеспечения, медицину и создание контента. Большая часть его текста взята из Google патенты, Википедия и Scribd. The New York Times и научные журналы академического издательства PLOS заняли четвертое и пятое места соответственно по объему в наборе данных. C4 также содержит контент из блогов отдельных лиц, религиозных веб-сайтов и т. д.

    Материалы, защищенные авторским правом, также включены в набор данных, причем символ © встречается более 200 миллионов раз. Неясно, несут ли компании, создающие продукты ИИ на основе обучающих данных, содержащих защищенные произведения, ответственность за нарушение прав интеллектуальной собственности.

    Stability AI, стартап, создающий инструменты для преобразования текста в изображения, был привлечен к ответственности за очистку изображений, защищенных авторским правом, с платформ стоковых фотографий. OpenAI также сталкивается с судебным процессом, оспаривающим его коллекцию общедоступного кода, размещенного на GitHub, который использовался для создания инструмента Microsoft Copilot для парного программирования AI.

    Reddit только что объявил об обновлении своих условий для своих услуг API, требуя от компаний платить за лицензии на очистку своих данных. «Мы представляем новую точку доступа премиум-класса для третьих лиц, которым требуются дополнительные возможности, более высокие лимиты использования и более широкие права использования», — говорится в заявлении компании во вторник.

    C4 содержит контент из Интернета до 2019 года, но, поскольку другие более поздние модели были построены с использованием аналогичных методов сбора данных, это исследование проливает свет на то, как чат-боты с искусственным интеллектом могут создавать проблемные результаты.

    Регистр обратился к Алленовскому институту искусственного интеллекта за дополнительными комментариями. ®

    Предыдущая статьяЕС запускает Европейский центр алгоритмической прозрачности
    Следующая статьяSamsung Galaxy F54 5G становится на шаг ближе к запуску в Индии
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.