Чат-бот Cicero от Meta, вероятно, сможет победить вас в дипломатии

    0
    48


    Мета-исследователи разработали систему искусственного интеллекта под названием Cicero, которая может играть в классическую стратегическую игру Diplomacy на уровне, сравнимом с большинством игроков-людей.

    Это значительное достижение в области обработки естественного языка, и оно может помочь людям забыть о дебюте Galactica на прошлой неделе, большой языковой модели. выдавал ложь за факты и был отключен через три дня критики со стороны научного сообщества.

    Дипломатия, разработанная в 1950-х годах и в настоящее время издаваемая Hasbro, фокусируется на общении и переговорах между игроками, которые играют роль семи европейских держав в начале 20-го века. Некоторые геймеры считают это идеальным способом потерять друзей.

    Игра имитирует захват территорий на карте Европы. Вместо того, чтобы ходить по очереди, игроки заранее записывают свои ходы и выполняют их одновременно. Чтобы не делать ходы, которые блокируются из-за того, что противник сделал встречный ход, игроки общаются друг с другом конфиденциально. Они обсуждают возможные скоординированные действия, а затем фиксируют свои ходы на бумаге, выполняя или нарушая обязательства перед другими игроками.

    Сосредоточенность дипломатии на общении, доверии и предательстве делает ее другой задачей, чем игры, более сосредоточенные на правилах и ресурсах, такие как шахматы и го. По сути, Cicero — это чат-бот, который может вести переговоры с другими игроками в Дипломатии, чтобы делать эффективные ходы в игре.

    Скриншот диалога Цицерона

    Скриншот диалога Цицерона – Нажмите, чтобы увеличить

    «Дипломатия десятилетиями рассматривалась как почти невыполнимая грандиозная задача в ИИ, потому что она требует от игроков овладеть искусством понимания мотивов и точек зрения других людей, составлять сложные планы и корректировать стратегии, а затем использовать естественный язык для достижения соглашений с другими людьми. , убедить их вступить в партнерские отношения и союзы и многое другое», — объяснила Мета в своем блоге.

    «Цицерон настолько эффективно использует естественный язык для переговоров с людьми в области дипломатии, что они часто предпочитали работать с Цицероном другим участникам».

    Cicero основан на языковой модели, подобной BART, с 2,7 миллиардами параметров, предварительно обученной на тексте из Интернета и дополненной с использованием набора данных из более чем 40 000 игр Diplomacy, сыгранных онлайн на webDiplomacy.net. Эти игры содержали более 12 миллионов сообщений, которыми обменивались игроки.

    Вывод диалога агента ИИ привязан к его модулю стратегического мышления, который создает «намерения», представляющие возможный набор ходов различных игроков.

    «Чтобы сгенерировать намерения для диалога и выбрать окончательные действия для каждого хода, Цицерон запускает модуль стратегического мышления, который предсказывает политику других игроков (то есть распределение вероятностей по действиям) для текущего хода на основе состояния доски. и общий диалог, а затем выбирает для себя политику на текущий ход, которая оптимально отвечает прогнозируемой политике других игроков», — объясняют исследователи Meta в исследовательской статье Science.

    В то время как агенты ИИ для таких игр, как шахматы, могут обучаться посредством самостоятельной игры с использованием обучения с подкреплением, моделирование совместной игры в дипломатии требовало другой техники. По словам Меты, классический подход предполагает контролируемое обучение, посредством которого агент будет обучаться, используя помеченные данные из прошлых игр «Дипломатия». Но само по себе контролируемое обучение создало доверчивого ИИ-агента, которым легко могли манипулировать лживые игроки.

    Поэтому Cicero включает алгоритм итеративного планирования под названием piKL, с помощью которого он уточняет первоначальный прогноз политики другого игрока и запланированных ходов на основе диалога между ботом и другими игроками. Алгоритм пытается улучшить ожидаемые наборы ходов для других игроков, оценивая различные варианты, которые дадут лучшие результаты.

    В своем заявлении Эндрю Грофф, чемпион мира по дипломатии, высоко оценил бесстрастный подход Цицерона к игре. «Многие игроки-люди смягчат свой подход или начнут мстить, но Цицерон никогда этого не делает», — сказал Грофф. «Он просто проигрывает ситуацию так, как он ее видит. Поэтому он безжалостен в реализации своей стратегии, но не безжалостен в том смысле, который раздражает других игроков».

    Цицерон анонимно сыграл 40 игр в «Дипломатию» в «блице» лиге на webDiplomacy.net в период с 19 августа по 13 октября 2022 года и вошел в 10 процентов лучших участников, сыгравших более одной игры. А среди 19, сыгравших пять и более партий, Цицерон занял второе место. Во всех 40 играх средний результат Цицерона составил 25,8 процента, что более чем в два раза превышает средний показатель 12,4 процента среди 82 его противников.

    Хотя Cicero все еще допускает некоторые ошибки, специалисты Meta ожидают, что их исследования окажутся полезными для других приложений, таких как чат-боты, способные поддерживать длительные разговоры, или персонажи видеоигр, которые понимают мотивацию игроков и в результате могут взаимодействовать более эффективно.

    Код Цицерона был выпущен под лицензией с открытым исходным кодом в надежде, что сообщество разработчиков ИИ сможет его улучшить.



    Предыдущая статьяПерсонажи Marvel, а не актеры, звезды, говорит Тарантино
    Следующая статьяЛучшие клавиатуры для Surface Pro 9: Brydge, Microsoft и другие
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.