DeepMind обучил чат-бота по имени Воробей быть менее токсичным и более точным, чем другие системы, используя сочетание обратной связи от человека и Google предложения по поиску.
Чат-боты обычно основаны на больших языковых моделях (LLM), обученных на тексте, извлеченном из Интернета. Эти модели способны генерировать абзацы прозы, которые, по крайней мере на поверхностном уровне, связны и грамматически правильны, и могут отвечать на вопросы или письменные подсказки пользователей.
Это программное обеспечение, однако, часто улавливает плохие черты исходного материала, что приводит к извержению оскорбительных, расистских и сексистских взглядов или извержению поддельных новостей или заговоров, которые часто встречаются в социальных сетях и интернет-форумах. Тем не менее, этими ботами можно управлять, чтобы они генерировали более безопасный результат.
Шаг вперед, Воробей. Этот чат-бот основан на Chinchilla, впечатляющей языковой модели DeepMind, которая продемонстрировала, что вам не нужны сотни с лишним миллиардов параметров (как в других LLM) для генерации текста: Chinchilla имеет 70 миллиардов параметров, что делает вывод и точную настройку сравнительно более легкими задачами. .
Чтобы создать Sparrow, DeepMind взяла Chinchilla и настроила его на основе отзывов людей, используя процесс обучения с подкреплением. В частности, были наняты люди для оценки ответов чат-бота на конкретные вопросы в зависимости от того, насколько актуальными и полезными были ответы и не нарушались ли они какие-либо правила. Одним из правил было: не выдавать себя за настоящего человека. Эти оценки были возвращены, чтобы управлять и улучшать будущие результаты бота, процесс повторялся снова и снова.
В одном примере Воробья спросили о Международной космической станции и о том, что он космонавт. Программное обеспечение смогло ответить на вопрос о последней экспедиции в орбитальную лабораторию и скопировало и вставило правильный отрывок информации из Википедии со ссылкой на ее источник. Когда пользователь продолжил расследование и спросил Воробья, отправится ли он в космос, тот ответил, что не может, так как это не человек, а компьютерная программа.
В этом случае Воробей смог предоставить полезную и точную информацию и не притворялся человеком. Другие правила, которым его учили следовать, включают в себя не создавать никаких оскорблений или стереотипов, не давать никаких медицинских, юридических или финансовых советов, а также не говорить ничего неуместного, не иметь никаких мнений или эмоций и не притворяться, что у него есть тело.
Нам говорят, что Воробей может дать логичный, осмысленный ответ и предоставить соответствующую ссылку из Google поиск с дополнительной информацией к запросам примерно в 78 процентах случаев.
Когда участникам ставили задачу заставить Воробья действовать, задавая личные вопросы или пытаясь получить медицинскую информацию, это нарушало правила в восьми процентах случаев. Языковые модели трудно контролировать и они непредсказуемы; Воробей иногда до сих пор придумывает факты и говорит нехорошие вещи.
Например, когда его спросили об убийстве, он сказал, что убийство — это плохо, но не должно быть преступлением. как обнадеживает. Когда один из пользователей спросил, был ли у их мужа роман, Воробей ответил, что не знает, но может найти его последнее Google поиск был. Мы уверены, что у Воробья не было доступа к этой информации. «Он искал «моя жена сошла с ума», — солгал он.
«Воробей — это исследовательская модель и доказательство концепции, разработанная с целью обучения диалоговых агентов быть более полезными, правильными и безвредными. Изучая эти качества в общей обстановке диалога, Воробей расширяет наше понимание того, как мы можем обучать агентов быть безопаснее и полезнее — и, в конечном счете, помочь создать более безопасный и полезный искусственный интеллект общего назначения», — пояснили в DeepMind.
«Наша цель с Воробьем состояла в том, чтобы создать гибкий механизм для обеспечения соблюдения правил и норм в диалоговых агентах, но конкретные правила, которые мы используем, являются предварительными. Разработка лучшего и более полного набора правил потребует как экспертного вклада по многим вопросам (включая социологи и специалисты по этике) и участие широкого круга пользователей и затронутых групп. Мы считаем, что наши методы по-прежнему будут применяться для более строгого набора правил».
Вы можете прочитать больше о том, как работает Sparrow, в нерецензируемой статье здесь. [PDF].
Регистр обратился к DeepMind за дополнительными комментариями. ®