Вот как данные, которые мы передаем ИИ, определяют результаты

От

28.04.2023

Мнение Год назад ИИ был большой новостью… если вы были фанатом науки о данных или глубоко интересовались укладкой белков. В противном случае? Не так много. Но затем появился генеративный ИИ, вы знаете его как ChatGPT, и теперь все в восторге от ИИ. Это изменит мир! Это уничтожит все «творческие» рабочие места. Не становись таким взволнованным, но блестящим! Позвольте мне вновь представить вам древнюю технологическую фразу: «Мусор на входе, мусор на выходе» (GIGO).

Некоторые считают, что ИИ-чатботы «думают», могут учиться или, по крайней мере, проверяют свои ответы. Неа. Они не делают. Сегодняшние программы искусственного интеллекта — это просто очень продвинутые, автоматически заполняющие, заполняющие пробелы механизмы. Вы годами использовали их более примитивных предков в своих почтовых клиентах и программах текстовых сообщений, чтобы очистить свое правописание.

Правда, то, что делает ChatGPT благодаря своей большой языковой модели (LLM), впечатляет гораздо больше. Если я хочу, чтобы это был небольшой рассказ о том, что Лея Скайуокер, она же принцесса Лея, делала после Звездные войны: Новая надежда, это можно сделать. Вы знали, что Чуи учил ее пользоваться бластером? Во всяком случае, так мне говорит ChatGPT.

Это нормально, но когда я попросил рассказать мне об увольнении Red Hat 4 процентов своей рабочей силы, даже после того, как я скормил ему меморандум об увольнении, ChatGPT уверенно сообщил мне, что генеральный директор Red Hat Пол Кормье сказал… Подождите. Кормье не был генеральным директором с июля 2022 года.

Почему ChatGPT ошибся? Что ж, я скажу вам: «Как модель языка ИИ, мои знания основаны на данных, на которых я обучался, которые идут до сентября 2021 года. У меня нет никаких обновлений в реальном времени или информации о событиях или данные после этой даты».

Дух.

Таким образом, хотя я предоставил более свежие данные, в которых Мэтт Хикс указан как нынешний генеральный директор Red Hat, они все равно не смогли включить это в свой ответ. Теперь есть способ обойти это, но обычный пользователь этого не знает.

Большинство людей предполагают, что ChatGPT «знает», о чем говорит. Это не так. Он просто ищет наиболее вероятные слова для любого запроса. Так что вполне логично, что всеми любимый вуки будет упомянут в истории «Звездных войн». Но, когда вы имеете дело с фактами, это другое дело. Они «знают» только то, что находится в их LLM.

Конечно, поскольку он не знает «Звездных войн» с Уолл-стрит, он знает только то, какие слова могут следовать за другими словами, ChatGPT, и его собратья будут придумывать вещи из цельного куска ткани. Мы называем это галлюцинациями.

Давайте посмотрим поближе. В то время как ChatCPT, который внезапно перестал открываться, не сообщает нам, что находится в его LLM, другие компании более открыты. The Washington Post, например, недавно проанализировала Googleнабор данных C4, который использовался для информирования таких англоязычных ИИ, как GoogleT5 и LLaMA от Facebook.

Читайте также:

Документы Microsoft по установке Linux

Выяснилось, что C4 брала данные с таких сайтов, как Википедия; Scribd, самопровозглашенный Netflix для книг и журналов; и WoWHead, сайт игрока World of WarCraft (WoW). Ждать? Что!? Не спрашивайте меня, но вот он, номер 181 в списке данных C4. Это здорово, если я хочу узнать лучшую сборку для WoW Orc Hunter, но это заставляет меня задуматься о надежности данных по более серьезным предметам.

Это все о GIGO. Если, как это произойдет в ближайшее время, кто-то создаст генеративный ИИ, который получает в основном данные из Fox News, NewsMax и Breitbart News, а я затем спрошу его: «Кто сегодня настоящий президент Соединенных Штатов?» Я ожидаю, что он скажет мне, что это Дональд Трамп, независимо от того, кто на самом деле находится в Белом доме.

Это так же тонко, как кирпич, но внутри данных уже есть предвзятость. Мы просто не видим этого, потому что недостаточно внимательно смотрим. Например, C4 отфильтровал документы [PDF] с тем, что он считал “плохими” словами. Благодаря этим и аналогичным усилиям афроамериканский английский (AAE) и английский, ориентированный на латиноамериканцев (Hisp), были отфильтрованы со значительно более высокими показателями, 42 процента и 32 процента соответственно), чем английский язык, ориентированный на белых (WAE), 6,2 процента.

Я сильно подозреваю, что дизайнеры C4 понятия не имели, что делают их фильтры. Но повторяйте за мной: «Мы не знаем». Хуже того, они могут даже не знать, что они не знают.

Как указал Национальный институт стандартов и технологий (NIST) в марте 2022 года, прежде чем мы все так увлечемся ИИ: «Более полное понимание предвзятости должно учитывать человеческие и системные предубеждения…

«Системные предубеждения возникают в результате того, что институты действуют таким образом, что ставят в невыгодное положение определенные социальные группы, например, дискриминируют людей по признаку расы. Человеческие предубеждения могут относиться к тому, как люди используют данные для заполнения недостающей информации, например, район проживания человека влияет на вероятность власти сочтут человека подозреваемым в совершении преступления. Когда человеческие, системные и вычислительные предубеждения объединяются, они могут образовывать пагубную смесь, особенно когда отсутствуют четкие указания по устранению рисков, связанных с использованием систем ИИ».

Как сказала научный сотрудник Национального института стандартов и технологий США Рева Шварц: «Контекст — это все. Системы искусственного интеллекта не работают изолированно. Они помогают людям принимать решения, которые напрямую влияют на жизнь других людей».

Итак, прежде чем мы отдадим свою жизнь и работу богу генеративного ИИ, давайте рассмотрим его глиняные ноги, не так ли? Это совсем не так точно и надежно, как многие из нас предполагают. И хотя его результаты со временем станут только более впечатляющими, мы совсем не близки к решению его проблем с предвзятостью и галлюцинациями. ®

Вот как данные, которые мы передаем ИИ, определяют результаты

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Zoom-o-cracy ударил по валлийскому голосованию за паспорт Covid °

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Zoom-o-cracy ударил по валлийскому голосованию за паспорт Covid °

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА