Вот как данные, которые мы передаем ИИ, определяют результаты

    0
    4


    Мнение Год назад ИИ был большой новостью… если вы были фанатом науки о данных или глубоко интересовались укладкой белков. В противном случае? Не так много. Но затем появился генеративный ИИ, вы знаете его как ChatGPT, и теперь все в восторге от ИИ. Это изменит мир! Это уничтожит все «творческие» рабочие места. Не становись таким взволнованным, но блестящим! Позвольте мне вновь представить вам древнюю технологическую фразу: «Мусор на входе, мусор на выходе» (GIGO).

    Некоторые считают, что ИИ-чатботы «думают», могут учиться или, по крайней мере, проверяют свои ответы. Неа. Они не делают. Сегодняшние программы искусственного интеллекта — это просто очень продвинутые, автоматически заполняющие, заполняющие пробелы механизмы. Вы годами использовали их более примитивных предков в своих почтовых клиентах и ​​программах текстовых сообщений, чтобы очистить свое правописание.

    Правда, то, что делает ChatGPT благодаря своей большой языковой модели (LLM), впечатляет гораздо больше. Если я хочу, чтобы это был небольшой рассказ о том, что Лея Скайуокер, она же принцесса Лея, делала после Звездные войны: Новая надежда, это можно сделать. Вы знали, что Чуи учил ее пользоваться бластером? Во всяком случае, так мне говорит ChatGPT.

    Это нормально, но когда я попросил рассказать мне об увольнении Red Hat 4 процентов своей рабочей силы, даже после того, как я скормил ему меморандум об увольнении, ChatGPT уверенно сообщил мне, что генеральный директор Red Hat Пол Кормье сказал… Подождите. Кормье не был генеральным директором с июля 2022 года.

    Почему ChatGPT ошибся? Что ж, я скажу вам: «Как модель языка ИИ, мои знания основаны на данных, на которых я обучался, которые идут до сентября 2021 года. У меня нет никаких обновлений в реальном времени или информации о событиях или данные после этой даты».

    Дух.

    Таким образом, хотя я предоставил более свежие данные, в которых Мэтт Хикс указан как нынешний генеральный директор Red Hat, они все равно не смогли включить это в свой ответ. Теперь есть способ обойти это, но обычный пользователь этого не знает.

    Большинство людей предполагают, что ChatGPT «знает», о чем говорит. Это не так. Он просто ищет наиболее вероятные слова для любого запроса. Так что вполне логично, что всеми любимый вуки будет упомянут в истории «Звездных войн». Но, когда вы имеете дело с фактами, это другое дело. Они «знают» только то, что находится в их LLM.

    Конечно, поскольку он не знает «Звездных войн» с Уолл-стрит, он знает только то, какие слова могут следовать за другими словами, ChatGPT, и его собратья будут придумывать вещи из цельного куска ткани. Мы называем это галлюцинациями.

    Давайте посмотрим поближе. В то время как ChatCPT, который внезапно перестал открываться, не сообщает нам, что находится в его LLM, другие компании более открыты. The Washington Post, например, недавно проанализировала Googleнабор данных C4, который использовался для информирования таких англоязычных ИИ, как GoogleT5 и LLaMA от Facebook.

    Выяснилось, что C4 брала данные с таких сайтов, как Википедия; Scribd, самопровозглашенный Netflix для книг и журналов; и WoWHead, сайт игрока World of WarCraft (WoW). Ждать? Что!? Не спрашивайте меня, но вот он, номер 181 в списке данных C4. Это здорово, если я хочу узнать лучшую сборку для WoW Orc Hunter, но это заставляет меня задуматься о надежности данных по более серьезным предметам.

    Это все о GIGO. Если, как это произойдет в ближайшее время, кто-то создаст генеративный ИИ, который получает в основном данные из Fox News, NewsMax и Breitbart News, а я затем спрошу его: «Кто сегодня настоящий президент Соединенных Штатов?» Я ожидаю, что он скажет мне, что это Дональд Трамп, независимо от того, кто на самом деле находится в Белом доме.

    Это так же тонко, как кирпич, но внутри данных уже есть предвзятость. Мы просто не видим этого, потому что недостаточно внимательно смотрим. Например, C4 отфильтровал документы [PDF] с тем, что он считал “плохими” словами. Благодаря этим и аналогичным усилиям афроамериканский английский (AAE) и английский, ориентированный на латиноамериканцев (Hisp), были отфильтрованы со значительно более высокими показателями, 42 процента и 32 процента соответственно), чем английский язык, ориентированный на белых (WAE), 6,2 процента.

    Я сильно подозреваю, что дизайнеры C4 понятия не имели, что делают их фильтры. Но повторяйте за мной: «Мы не знаем». Хуже того, они могут даже не знать, что они не знают.

    Как указал Национальный институт стандартов и технологий (NIST) в марте 2022 года, прежде чем мы все так увлечемся ИИ: «Более полное понимание предвзятости должно учитывать человеческие и системные предубеждения…

    «Системные предубеждения возникают в результате того, что институты действуют таким образом, что ставят в невыгодное положение определенные социальные группы, например, дискриминируют людей по признаку расы. Человеческие предубеждения могут относиться к тому, как люди используют данные для заполнения недостающей информации, например, район проживания человека влияет на вероятность власти сочтут человека подозреваемым в совершении преступления. Когда человеческие, системные и вычислительные предубеждения объединяются, они могут образовывать пагубную смесь, особенно когда отсутствуют четкие указания по устранению рисков, связанных с использованием систем ИИ».

    Как сказала научный сотрудник Национального института стандартов и технологий США Рева Шварц: «Контекст — это все. Системы искусственного интеллекта не работают изолированно. Они помогают людям принимать решения, которые напрямую влияют на жизнь других людей».

    Итак, прежде чем мы отдадим свою жизнь и работу богу генеративного ИИ, давайте рассмотрим его глиняные ноги, не так ли? Это совсем не так точно и надежно, как многие из нас предполагают. И хотя его результаты со временем станут только более впечатляющими, мы совсем не близки к решению его проблем с предвзятостью и галлюцинациями. ®

    Предыдущая статьяBLUR вырос на 12,24%, BTC +1,35%, Cronos — монета дня — ежедневное обновление рынка от 28 апреля 2023 г.
    Следующая статьяДайте волю своему внутреннему авантюристу с Cubot KingKong Power
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.