Обеспечение справедливости и безопасности в приложениях искусственного интеллекта (ИИ) считается многими самой большой проблемой в космосе. Поскольку системы искусственного интеллекта соответствуют или превосходят человеческий интеллект во многих областях, очень важно, чтобы мы разработали руководящие принципы, чтобы привести эту новую форму интеллекта в соответствие с человеческими ценностями. Проблема в том, что, как люди, мы очень мало понимаем, как наши ценности представлены в мозге, или мы даже не можем сформулировать конкретные правила для описания конкретной ценности. В то время как ИИ работает в мире данных, человеческие ценности являются побочным продуктом нашей эволюции как социальных существ.
Выравнивание ценностей AI: учиться, задавая правильные вопросы
В своей исследовательской работе команда OpenAI представила понятие выравнивания значений ИИ как «задачу обеспечения того, чтобы системы искусственного интеллекта надежно делали то, что хотят люди». Команда OpenAI считает, что лучший способ понять человеческие ценности – просто задавать вопросы.
Вопросы о человеческих ценностях могут иметь разные субъективные ответы в зависимости от конкретного контекста. С этой точки зрения, если мы сможем заставить системы ИИ задавать конкретные вопросы, возможно, мы сможем научиться подражать человеческому суждению в определенных сценариях.
Правильный вопрос – эффективный метод достижения выравнивания значений ИИ.
Изучение человеческих ценностей путем обсуждения
Команда OpenAI решила побудить агентов ИИ изучать человеческие ценности, опираясь на одну из самых чистых динамик ответов на вопросы: дебаты. Концептуально дебаты – это форма обсуждения, которая разбивает сложный аргумент на итеративный набор простых вопросов, чтобы сформулировать обоснованный путь к конкретному ответу. Применяя методы дебатов для достижения согласованности значений ИИ, команда OpenAI опиралась на рабочую гипотезу: «Оптимальная игра в дебатной игре (приводя аргументы, наиболее убедительные для человека) приводит к истинным, полезным ответам на вопросы».
С этой гипотезой в качестве основы OpenAI создал игру, в которой два агента ИИ участвовали в дебатах, пытаясь убедить человека судить. Участники дебатов обучаются только для победы в игре и не руководствуются истиной, отдельной от суждений человека. С человеческой стороны цель состоит в том, чтобы понять, достаточно ли сильны люди в качестве судей в дебатах, чтобы заставить эту схему работать, или как изменить дебаты, чтобы исправить это, если это не так. Использование экспертов по ИИ в дебатах OpenAI – идеальный вариант, но технология до сих пор не достигла этого уровня. В большинстве реальных дебатов используются сложные образцы естественного языка, которые сегодня выходят за рамки возможностей систем искусственного интеллекта.
Использование дебатов в качестве основного метода может помочь ответить на важные вопросы об отношениях между людьми и агентами ИИ.
Идея применения социальных наук в искусственном интеллекте не нова, но усилия OpenAI являются одними из первых прагматических шагов в этой области. В то время как социальные науки фокусируются на понимании человеческого поведения в реальном мире, ИИ в качестве отправной точки принимает лучшую версию человеческого поведения. С этой точки зрения пересечение социальных наук и ИИ может привести к более справедливому и безопасному машинному интеллекту.