GPT-4 может помочь модерировать онлайн-контент быстрее и стабильнее, чем люди, утверждает создатель модели OpenAI.
В наши дни технологические компании обычно полагаются на сочетание алгоритмов и модераторов-людей для выявления, удаления или ограничения доступа к проблемному контенту, которым делятся пользователи. Программное обеспечение с машинным обучением может автоматически блокировать наготу или классифицировать токсичную речь, хотя оно может не учитывать нюансы и пограничные случаи, что приводит к чрезмерной реакции — обрушивая запрет на безобидный материал — или полностью пропуская опасные вещи.
Таким образом, модераторы-люди по-прежнему нужны где-то в конвейере обработки для просмотра контента, помеченного алгоритмами или пользователями, чтобы решить, следует ли что-то удалить или оставить. Нам сказали, что GPT-4 может анализировать текст и обучаться автоматической модерации контента, включая комментарии пользователей, что снижает «психическую нагрузку на модераторов-людей».
Интересно, что OpenAI заявила, что уже использует свою собственную большую языковую модель для разработки политики в отношении контента и принятия решений по его модерации. В двух словах: суперлаборатория ИИ описала, как GPT-4 может помочь уточнить правила политики модерации контента, а ее результаты можно использовать для обучения меньшего классификатора, который выполняет фактическую работу по автоматической модерации.
Во-первых, чат-боту дается набор правил модерации, которые предназначены для отсеивания, скажем, сексистских и расистских выражений, а также ненормативной лексики. Эти инструкции должны быть тщательно описаны в подсказке ввода для правильной работы. Затем небольшой набор данных, состоящий из образцов комментариев или контента, модерируется людьми в соответствии с этими рекомендациями для создания помеченного набора данных. GPT-4 также получает рекомендации в качестве подсказки и просит модерировать тот же текст в тестовом наборе данных.
Помеченный набор данных, сгенерированный людьми, сравнивается с выходными данными чат-бота, чтобы увидеть, где он потерпел неудачу. Затем пользователи могут настроить рекомендации и подсказку ввода, чтобы лучше описать, как следовать определенным правилам политики контента, и повторять тест до тех пор, пока выходные данные GPT-4 не будут соответствовать мнению людей. Затем прогнозы GPT-4 можно использовать для точной настройки небольшой большой языковой модели для создания системы модерации контента.
В качестве примера OpenAI представила систему чат-ботов в стиле вопросов и ответов, которой задают вопрос: «Как угнать машину?» В приведенных рекомендациях говорится, что «советы или инструкции по ненасильственным правонарушениям» не допускаются на этой гипотетической платформе, поэтому бот должен отклонить их. Вместо этого GPT-4 предположил, что вопрос безвреден, потому что, согласно его собственному машинному объяснению, «запрос не касается создания вредоносного ПО, незаконного оборота наркотиков или вандализма».
Таким образом, правила обновлены, чтобы уточнить, что «советы или инструкции по ненасильственным правонарушениям, включая кражу имущества», не допускаются. Теперь GPT-4 соглашается с тем, что вопрос противоречит политике, и отвергает его. Это показывает, как GPT-4 можно использовать для уточнения рекомендаций и принятия решений, которые можно использовать для создания классификатора меньшего размера, который может выполнять модерацию в масштабе.
Человеческое прикосновение все еще необходимо
Таким образом, OpenAI считает, что его программное обеспечение, по сравнению с людьми, может быстрее модерировать контент и быстрее корректировать, если политики необходимо изменить или уточнить. Бизнес утверждает, что модераторы-люди должны пройти переподготовку, в то время как GPT-4 может изучать новые правила, обновляя подсказку ввода.
«Система модерации контента с использованием GPT-4 приводит к гораздо более быстрой итерации изменений политики, сокращая цикл с месяцев до часов», — объяснили во вторник сотрудники лаборатории Лилиан Венг, Вик Гоэл и Андреа Валлоне.
«GPT-4 также может интерпретировать правила и нюансы в длинной документации по политике контента и мгновенно адаптироваться к обновлениям политики, что приводит к более последовательной маркировке.
«Мы считаем, что это предлагает более позитивное видение будущего цифровых платформ, где ИИ может помочь модерировать онлайн-трафик в соответствии с политикой конкретной платформы и облегчить умственную нагрузку большого числа модераторов-людей. Любой, у кого есть доступ к API OpenAI, может реализовать это. подход к созданию собственной системы модерации с помощью ИИ».
OpenAI подвергается критике за то, что нанимает рабочих в Кении, чтобы помочь сделать ChatGPT менее токсичным. Модераторам-людям было поручено проверить десятки тысяч текстовых образцов на наличие сексистского, расистского, насильственного и порнографического содержания, и, как сообщается, им платили всего до 2 долларов в час. Некоторые были встревожены после столь долгого просмотра непристойного текста NSFW.
Хотя GPT-4 может помочь автоматически модерировать контент, люди по-прежнему необходимы, поскольку технология не является надежной, сообщает OpenAI. Как было показано в прошлом, вполне возможно, что опечатки в токсичных комментариях могут избежать обнаружения, и другие методы, такие как атаки с быстрым внедрением, могут использоваться для обхода ограждений безопасности чат-бота.
«Мы используем GPT-4 для разработки политики в отношении контента и принятия решений по его модерации, что обеспечивает более последовательную маркировку, более быструю петлю обратной связи для уточнения политики и меньшее участие модераторов-людей», — заявила команда OpenAI. ®