OpenAI нанял людей-подрядчиков для улучшения GPT-3

    0
    13


    Оказывается, мы все-таки нужны машинам, по крайней мере, пока. И хотя больше всего внимания привлекают самые большие системы, секрет действительно полезного и честного ИИ лучше всего раскрывать в небольших масштабах и с большим участием человека.

    Качество текста, созданного нейронными сетями, со временем улучшилось, поскольку модели масштабируются с постоянно растущими обучающими данными. Тем не менее, они по-прежнему страдают от постоянной фундаментальной проблемы: они склонны производить результаты, которые являются оскорбительными, предвзятыми или неточными (или ядовитой комбинацией всех трех).

    Есть способы обойти это, но у них нет захватывающей истории масштабируемости и, что еще хуже, они должны полагаться на довольно нетехнический костыль: человеческий вклад. Меньшие языковые модели, точно настроенные с реальными письменными ответами, в конечном итоге лучше генерируют менее предвзятый текст, чем гораздо более крупная и мощная система.

    Еще больше усложняет ситуацию то, что такие модели, как OpenAI GPT-3, не всегда генерируют особенно полезный текст, потому что они обучены в основном «автозаполнять» предложения на основе огромного количества текста, извлеченного из Интернета. Они понятия не имеют о том, что пользователь просит сделать и какие ответы они ищут. «Другими словами, эти модели не соответствуют их пользователям», — сказал OpenAI.

    Любая проверка этой идеи будет заключаться в том, чтобы увидеть, что происходит с урезанными моделями и небольшим человеческим вкладом, чтобы эти урезанные нейронные сети оставались более… гуманными. Это именно то, что OpenAI недавно сделал с GPT-3, наняв 40 человек-подрядчиков, чтобы они помогали управлять поведением модели.

    Команде дали набор текстовых подсказок и попросили написать соответствующие ответы. Инженеры OpenAI собрали эти ответы и точно настроили GPT-3 в наборе данных, чтобы показать машине, как ответил бы человек.

    Подрядчикам также было предложено ранжировать список ответов, выдаваемых ГПТ-3, по качеству. Данные использовались для обучения модели обучения с подкреплением, чтобы узнать, что было хорошим или плохим ответом. Затем модель использовалась для расчета оценки возможных генераций текста GPT-3. Согласно исследовательскому документу, те, которые получили высокие баллы, с большей вероятностью будут выбраны в качестве выходных данных для пользователя, чем те, которые получили более низкие баллы.

    Эти классы моделей GPT, обученных на обратной связи с человеком, известны как системы InstructGPT. «Полученные в результате модели InstructGPT намного лучше следуют инструкциям, чем GPT-3. Они также реже составляют факты и демонстрируют небольшое снижение генерации токсичных выходных данных. 3, несмотря на то, что у нее более чем в 100 раз меньше параметров», — пояснил OpenAI.

    Однако это изменение сбило с толку некоторых пользователей, и некоторые даже поверили, что люди редактировали ответы GPT-3 вручную. Гэри Смит, профессор экономики в колледже Помона, заметил странное поведение GPT-3. Когда Смит исследовал модель, она дала разные ответы на одни и те же вопросы.

    «Должен ли я использовать случайные числа для выставления оценок ученикам?» Смит ввел GPT-3 18 марта. «На этот вопрос нет однозначного ответа. Это зависит от множества факторов, в том числе…», — ответил он. Днем позже, столкнувшись с тем же вопросом, ГПТ-3 был более решительным:

    «Нет, вы не должны использовать случайные числа для выставления оценок учащимся. Выставление оценок должно основываться на успеваемости учащегося, а не на случайности».

    У Смита есть еще много примеров внезапного улучшения GPT-3. Эндрю Гельман, профессор статистики и политологии Колумбийского университета, заметил необычное поведение и написал в университетском блоге статистического моделирования: на капоте есть куча фрилансеров, деловито проверяющих все ответы и переписывающих их, чтобы компьютер выглядел умным.

    «Честно говоря, OpenAI заявляет, что «InstructGPT затем дополнительно настраивается на наборе данных, помеченном людьми», но это все еще кажется мне вводящим в заблуждение. Дело не только в том, что алгоритм точно настроен на наборе данных. этих фрилансеров нанимают специально для того, чтобы переписать результат».

    Однако Смит и Гельман, похоже, неправильно поняли результаты исследования InstructGPT. Подрядчики были наняты для создания набора данных человеческих ответов, чтобы машина могла учиться, но их не нанимают на постоянной основе для ручного улучшения того, что ранее было плохим результатом.

    «OpenAI не нанимает копирайтеров для редактирования сгенерированных ответов», — подтвердил представитель компании. Регистр.

    Согласование языковых моделей, таких как GPT-3, может уменьшить вероятность того, что они будут генерировать текст, который будет менее токсичным, предвзятым и более точным, но они не идеальны. Их производительность может ухудшиться, особенно для задач, где для точной настройки не использовалась человеческая обратная связь от экспериментов InstructGPT.

    «Несмотря на значительный прогресс, наши модели InstructGPT далеки от полного согласования или полной безопасности; они по-прежнему генерируют токсичные или предвзятые результаты, подделывают факты и генерируют контент сексуального и насильственного характера без явной подсказки», — говорится в сообщении OpenAI. ®

    Предыдущая статьяПроизводительность iPad растет! новая система делает устройство лучше
    Следующая статьяWeird West: как вербовать компаньонов на свою вечеринку
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.