Новый тест показывает, что ИИ мало чему учится

    0
    23


    Думаете, ваши агенты ИИ действительно учатся решать проблемы? Новый тест проливает свет на то, что реально, когда речь идет о сложном ИИ.

    Исследователи из Университета Аризоны, Microsoft и Института искусственного интеллекта Аллена протестировали несколько различных современных агентов и обнаружили, что они легко могут ответить на вопрос «что» в ситуации, но не способны определить, «как» поступить. их.

    Агенты были испытаны с помощью эталонного теста, созданного специально для задачи, которую исследователи назвали ScienceWorld. ScienceWorld сразу же знаком каждому, кто играл в текстовую MUD старой школы: в ней есть несколько комнат, объекты, с которыми можно взаимодействовать, и задачи, которые необходимо выполнить. В данном случае это не столько убийство гоблинов, сколько завершение эквивалента научных проектов элементарного уровня.

    В ScienceWorld есть механизмы моделирования термодинамики, электрических цепей, вещественных и химических реакций, а также биологических процессов. Исследователи получили свой список экспериментов для агентов, превратив типичные вопросы научного теста в эксперименты, а затем протестировав агентов, чтобы увидеть, смогут ли они обосновать ответ.

    Тот факт, что агенты могут быстро ответить «что», но не «как», поднимает «вопрос о том, являются ли текущие модели просто получением ответов путем наблюдения за большим количеством подобных входных примеров, или они научились рассуждать о понятиях в многоразового использования», — сказали исследователи.

    Не хочу спойлерить, но в этих цифровых мозгах не происходит рассуждений.

    Разработчики ScienceWorld искали цифровых агентов, которые могли бы выполнять одну конкретную задачу — «сочетать декларативные научные и мировые знания с процедурными знаниями, необходимыми для правильного завершения эксперимента».

    В одном эксперименте агентов проверяли, смогут ли они идентифицировать вилку, найти необходимые материалы, необходимые для проверки ее проводимости, а затем положить ее в нужную коробку.

    В другом эксперименте агенты пытались определить, растает ли кубик льда на плите. Опять же, это требует, чтобы агент идентифицировал, подбирал и манипулировал несколькими объектами внутри ScienceWorld. В качестве дополнительного уровня сложности во всех ситуациях различные свойства объектов внутри ScienceWorld (местоположение, цвет и т. д.) меняются каждый раз при запуске симуляции, чтобы агенты не могли просто запомнить последовательность.

    Оценка 30 различных заданий в ScienceWorld основана на шкале от 0,00 (полный провал) до 1 (отличное выполнение). Самый высокий балл для любого тестируемого ИИ был 0,54, и это был один из самых простых: идентификация неживого существа. Для льда лучшим было 0,04. На самом деле выделялся генератор случайных чисел с 0,63 для идентификации неживого объекта. Создание схем также было ужасным.

    Это привело ученых к выводу:

    Агенты для текстовых игр, а также новые модели, адаптированные из основанных на трансформерах научных решателей вопросов, плохо справляются с задачами (такими как таяние льда), которые ученики 5-го класса могут легко выполнять.

    «В целом эти задачи сложны для текущих моделей, при этом лучшая модель (DRRN) набрала средний балл 0,18 по всем 30 подзадачам», — говорится в документе. Итак, какие модели показали лучшие результаты? Даже на этот вопрос сложно ответить.

    Исследователи обнаружили, что модели, использующие корректные средства обнаружения действий, как правило, работают лучше, чем те, которые должны сначала научиться генерировать правильные действия, а модели, которые используют большие языковые компоненты модели для выбора действий, как правило, работают хуже.

    Интерактивные модели обучения с подкреплением могли быстро идентифицировать и классифицировать объекты, но с трудом подбирали объекты и помещали их в нужную коробку. Открытые задачи, например требующие от бота изменения состояния объекта, были сложными для всех моделей.

    Самый большой вывод из проекта связан с другим открытием: агенты с более крупными моделями не обязательно работают лучше. Модель DRRN имела всего 1,5 миллиона параметров, что на четыре порядка меньше, чем у пары моделей T5, использованных в эксперименте, но DRRN работала лучше.

    «Наши результаты также показывают, что агенты, обучающиеся интерактивно в заземленной среде, более эффективны с точки зрения выборки и параметров, чем большие языковые модели, которые обучаются в автономном режиме, читая текст из статических источников», — говорится в отчете. ®

    Предыдущая статьяEscape Academy позволяет вам разгадывать квесты вместе с другом
    Следующая статьяСэмюэл Л. Джексон хочет вернуться в «Звездные войны»
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.