GoogleДанные обучения C4 ML взяты из расистских источников 4chan

От

20.04.2023

Проблемный, расистский и порнографический веб-контент, похоже, используется для обучения Googleбольшие языковые модели, несмотря на попытки отфильтровать слои токсичного и вредоносного текста.

Исследование, проведенное The Washington Post и Институтом искусственного интеллекта Аллена, проанализировало Googleогромный общедоступный набор данных C4, выпущенный для академических исследований, чтобы лучше понять, какие типы веб-сайтов обычно очищаются для обучения больших языковых моделей.

Набор данных C4 использовался для обучения GoogleT5 Text-to-Text Transfer Transformer, а также Big Language Model Meta AI (LLaMA) от Facebook, вариант которого вызвал тревогу.

Похоже, что C4 получил материалы, которые используются для создания систем машинного обучения следующего поколения. Это потенциально может привести к тому, что эти системы будут вести себя ненадлежащим образом и ненадежно.

Обычный регистр читатели должны знать, что мы снова и снова указывали на проблемы с обучающими наборами данных, такие как ужасная изнанка часто цитируемого набора, курируемого MIT.

Последний зонд

Аналитики Института Поста и Аллена составили рейтинг 10 миллионов лучших веб-сайтов, включенных в C4, сопоставив текст, который появился в качестве интернет-контента. Хотя C4 — это уменьшенная и более чистая версия набора данных Common Crawl, который содержит текст с миллиардов веб-сайтов, он по-прежнему содержит нежелательные материалы из темных уголков Интернета.

Расистские, анти-трансгендерные и токсичные тексты были скопированы с таких веб-сайтов, как портал ненависти к расам Stormfront, доксинг-форум Kiwi Farms и доска токсичных сообщений 4chan. Поэтому неудивительно, что языковые модели, основанные на этом корпусе, могут генерировать неприемлемый контент, говорить о теориях заговора или вызывать сомнительные идеологии.

C4 также состоит из веб-сайтов, на которых размещена личная информация, такая как базы данных регистрации избирателей. На фоне этого несколько регулирующих органов в Италии, Канаде, Испании и Франции с тех пор начали расследования в отношении ChatGPT OpenAI из-за проблем с конфиденциальностью данных, поскольку модель может принимать и генерировать конфиденциальную информацию.

Большие языковые модели, лежащие в основе чат-ботов с искусственным интеллектом, не являются интеллектуальными или сознательными, какими бы волшебными они ни казались: они пишут, предсказывая поток слов и предложений в ответ на подсказки, вопросы и инструкции от пользователей или даже других ботов. Это включает в себя использование гор данных, на которых они были обучены, и обучение на них, чтобы подражать тому, что написал бы человек.

Таким образом, эти прогнозы отражают закономерности типов текстов, создаваемых человечеством, таких как сообщения в Интернете, новостные статьи, поэзия и романы, которые помещаются в обширные обучающие наборы данных.

Эти системы не могут отличить факты от вымысла, получают огромные объемы данных, взятых из Интернета, и могут давать неточные результаты, а также извергать информацию.

Компании, создающие большие языковые модели, пытаются отфильтровать нежелательный контент на этапах обучения и вывода, хотя их процессы проверки несовершенны. Что также расстраивает, так это то, что создатели коммерческих моделей ИИ, таких как ChatGPT от OpenAI, новый Bing от Microsoft или GoogleЧат Барда — не всегда раскрывайте, как они получали, очищали и обрабатывали свои тренировочные данные.

К счастью, набор данных C4 не так плох, как другие: он в основном содержит материалы, взятые с более безобидных веб-сайтов, охватывающих журналистику, разработку программного обеспечения, медицину и создание контента. Большая часть его текста взята из Google патенты, Википедия и Scribd. The New York Times и научные журналы академического издательства PLOS заняли четвертое и пятое места соответственно по объему в наборе данных. C4 также содержит контент из блогов отдельных лиц, религиозных веб-сайтов и т. д.

Материалы, защищенные авторским правом, также включены в набор данных, причем символ © встречается более 200 миллионов раз. Неясно, несут ли компании, создающие продукты ИИ на основе обучающих данных, содержащих защищенные произведения, ответственность за нарушение прав интеллектуальной собственности.

Stability AI, стартап, создающий инструменты для преобразования текста в изображения, был привлечен к ответственности за очистку изображений, защищенных авторским правом, с платформ стоковых фотографий. OpenAI также сталкивается с судебным процессом, оспаривающим его коллекцию общедоступного кода, размещенного на GitHub, который использовался для создания инструмента Microsoft Copilot для парного программирования AI.

Reddit только что объявил об обновлении своих условий для своих услуг API, требуя от компаний платить за лицензии на очистку своих данных. «Мы представляем новую точку доступа премиум-класса для третьих лиц, которым требуются дополнительные возможности, более высокие лимиты использования и более широкие права использования», — говорится в заявлении компании во вторник.

GoogleДанные обучения C4 ML взяты из расистских источников 4chan

Последний зонд

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Служба защиты конфиденциальности просит бизнес отказаться от искусственного интеллекта, который анализирует...

Последний зонд

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Служба защиты конфиденциальности просит бизнес отказаться от искусственного интеллекта, который анализирует...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА