OpenAI представляет GPT-4, искусственный интеллект, который превзойдет «90% на экзамене»

    0
    12


    Во вторник OpenAI объявила о выпуске GPT-4, последней вехи в создании моделей глубокого обучения с вызовом и ответом, которая, по-видимому, может превзойти своих плотских создателей на важных экзаменах.

    Согласно OpenAI, модель демонстрирует «производительность на уровне человека в различных профессиональных и академических тестах». GPT-4 может сдать смоделированный экзамен на адвоката среди 10% лучших тестируемых, тогда как его предшественник, GPT-3.5 (основа ChatGPT), набрал около 10% худших.

    GPT-4 также хорошо показал себя на других экзаменах, таких как SAT Math (700 из 800). Однако он не универсален, набрав всего 2 балла по английскому языку и композиции AP (от 14-го до 44-го процентиля).

    GPT-4 — это большая мультимодальная модель, в отличие от большой языковой модели. Он предназначен для приема запросов через ввод текста и изображений с ответами, возвращаемыми в виде текста. Первоначально он доступен через API GPT-4 из списка ожидания и для подписчиков ChatGPT Plus только в текстовом формате. Ввод на основе изображений все еще совершенствуется.

    Несмотря на добавление механизма визуального ввода, OpenAI не раскрывает и не обеспечивает наглядность создания своей модели. Выскочка решила не разглашать подробности о своем размере, о том, как его обучали и какие данные использовались в процессе.

    «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), оборудовании, обучающих вычислениях, построении набора данных, методе обучения и т. п.», говорится в техническом документе компании. [PDF].

    В прямом эфире на YouTube Грег Брокман, президент и соучредитель OpenAI, продемонстрировал разницу между GPT-4 и GPT-3.5, попросив моделей резюмировать сообщение в блоге OpenAI GPT-4 в одном предложении, где начинается каждое слово. с буквой «Г».

    GPT-3.5 просто не пробовал. GPT 4 ответил: «GPT-4 обеспечивает новаторские, грандиозные достижения, значительно стимулируя общие цели ИИ». И когда Брокман сказал модели, что включение «ИИ» в предложение не считается, GPT-4 пересмотрел свой ответ в другом предложении, нагруженном G, без «ИИ» в нем.

    Затем он попросил GPT-4 сгенерировать код Python для бота Discord. Что еще более впечатляюще, он сфотографировал нарисованный от руки макет веб-сайта с шутками, отправил изображение в Discord, и связанная с ним модель GPT-4 ответила кодом HTML и JavaScript для реализации макета сайта.

    Наконец, Брокман настроил GPT-4 для анализа 16 страниц налогового кодекса США, чтобы вернуть стандартный вычет для пары Алисы и Боба с особыми финансовыми обстоятельствами. Модель OpenAI ответила правильным ответом вместе с объяснением задействованных вычислений.

    Помимо улучшения рассуждений, о чем свидетельствуют улучшенные результаты тестов, GPT-4 предназначен для более совместной работы (повторение в соответствии с указаниями для улучшения предыдущего вывода), лучшей способности обрабатывать большие объемы текста (анализировать или выводить фрагменты длиной около 25 000 слов). , и приема входных данных на основе изображений (для распознавания объектов, хотя эта возможность еще не общедоступна).

    Более того, согласно OpenAI, у GPT-4 меньше шансов сойти с рельсов, чем у его предшественников.

    «Мы потратили шесть месяцев на итеративную настройку GPT-4, используя уроки нашей программы состязательного тестирования, а также ChatGPT, что привело к нашим лучшим результатам (хотя и далеким от совершенства) по фактичности, управляемости и отказу выходить за пределы ограждений. “, – говорит орг.

    Люди, возможно, уже знакомы с этим «далеко от совершенства» уровнем безопасности по сложному дебюту возможностей ответа на вопросы Microsoft Bing, который использует GPT-4 в качестве основы для своей модели Prometheus.

    OpenAI признает, что GPT-4 «галлюцинирует факты и делает ошибки в рассуждениях», как и его предки, но организация настаивает на том, что модель делает это в меньшей степени.

    GPT-4 значительно уменьшает галлюцинации по сравнению с предыдущими моделями

    «Хотя GPT-4 все еще представляет собой реальную проблему, он значительно уменьшает галлюцинации по сравнению с предыдущими моделями (которые улучшались с каждой итерацией)», — поясняет компания. «GPT-4 оценивается на 40 процентов выше, чем наш последний GPT-3.5 по нашим внутренним состязательным оценкам достоверности».

    Цена GPT-4 составляет 0,03 доллара США за 1 тыс. токенов приглашения и 0,06 доллара США за 1 тыс. токенов завершения, где токен состоит примерно из четырех символов. Также существует ограничение скорости по умолчанию: 40 000 токенов в минуту и ​​200 запросов в минуту.

    Несмотря на постоянную озабоченность по поводу рисков, связанных с ИИ, существует спешка с выводом моделей ИИ на рынок. В тот же день, когда появился GPT-4, Anthropic, стартап, созданный бывшими сотрудниками OpenAI, представил своего собственного помощника на основе чата под названием Claude для обработки сводки и генерации текста, поиска, вопросов и ответов, кодирования и многого другого. Это также доступно через ограниченный предварительный просмотр.

    И Googleобеспокоенный отставанием в маркетинге моделей AP, развернул API под названием PaLM для взаимодействия с различными большими языковыми моделями и среду прототипирования под названием MakerSuite.

    Несколькими неделями ранее Facebook запустил свою большую языковую модель LLaMA, которая теперь была преобразована в модель Alpaca исследователями из Стэнфорда. Регистр более подробно расскажем позже.

    «Предстоит еще много работы, и мы с нетерпением ждем улучшения этой модели благодаря коллективным усилиям сообщества, создающего, исследующего и вносящего свой вклад в модель», — заключает OpenAI. ®

    Предыдущая статьяThe Legend Of Heroes: Trails To Azure — 8 советов начинающим
    Следующая статьяTrails To Azure: все земурианские рудники
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.