Эмерджентное поведение LLM списано исследованием как «мираж»

    0
    5


    Анализ Известно, что GPT-3, PaLM, LaMDA и другие языковые модели следующего поколения демонстрируют неожиданные «эмерджентные» способности по мере увеличения их размера. Однако некоторые стэнфордские ученые утверждают, что это скорее следствие неверных измерений, чем чудесной компетентности.

    Как определено в академических исследованиях, «эмерджентные» способности относятся к «способностям, которых нет в мелкомасштабных моделях, но которые присутствуют в крупномасштабных моделях», как говорится в одной из таких статей. Другими словами, безукоризненная инъекция: увеличение размера модели придает ей удивительную способность, которой раньше не было. Чудо, казалось бы, и всего в нескольких шагах от «она жива!»

    Идея о том, что какая-то возможность просто внезапно появляется в модели в определенном масштабе, питает опасения людей по поводу непрозрачной природы моделей машинного обучения и опасений по поводу потери контроля над программным обеспечением. Что ж, эти появляющиеся способности в моделях ИИ — полная чепуха, говорят компьютерщики из Стэнфорда.

    Пренебрегая законом заголовков Беттериджа, Райлан Шеффер, Брандо Миранда и Санми Койеджо отвечают на вопрос, поставленный в их статье «Являются ли эмерджентные способности больших языковых моделей миражом?», утвердительными.

    «В этой статье мы ставим под сомнение утверждение о том, что LLM обладают эмерджентными способностями, под которыми мы конкретно подразумеваем резкие и непредсказуемые изменения выходных данных модели в зависимости от масштаба модели для конкретных задач», — говорится в их статье.

    Глядя за занавес

    Несмотря на всю шумиху вокруг них, LLM являются вероятностными моделями. Вместо того, чтобы обладать каким-либо разумным интеллектом, как утверждают некоторые, они обучаются на горах текста, чтобы предсказать, что будет дальше, когда им будет подсказана подсказка.

    Когда отраслевые представители говорят об эмерджентных способностях, они имеют в виду способности, которые для этих моделей появляются из ниоткуда, как будто в них что-то пробуждается по мере их роста. Идея заключается в том, что когда эти LLM достигают определенного масштаба, способность обобщать текст, переводить языки или выполнять сложные вычисления, например, может неожиданно появиться. Модели могут выйти за рамки своих ожидаемых возможностей, поскольку они накапливают больше обучающих данных и растут.

    Некоторых эта непредсказуемость завораживает и волнует, хотя и беспокоит, потому что открывает целую банку червей. У некоторых людей возникает соблазн интерпретировать все это как результат некоторого разумного поведения, растущего в нейронной сети, и других жутких эффектов.

    Шеффер, Миранда и Койеджо из Стэнфорда предполагают, что, когда исследователи испытывают модели в своих темпах и видят непредсказуемые ответы, это действительно связано с плохо выбранными методами измерения, а не с проблеском реального интеллекта.

    Команда заметила, что большая часть (92 процента) обнаруженного неожиданного поведения была обнаружена в задачах, оцениваемых с помощью BIG-Bench, краудсорсингового набора из более чем 200 тестов для оценки больших языковых моделей.

    Одним из тестов в рамках BIG-Bench, выделенным университетским трио, является Exact String Match. Как следует из названия, это проверяет вывод модели, чтобы увидеть, точно ли он соответствует определенной строке, не придавая значения почти правильным ответам. Документация даже предупреждает:

    Исследователи говорят, что проблема с использованием таких тестов типа «пройден или не пройден» для определения эмерджентного поведения заключается в том, что нелинейный вывод и отсутствие данных в небольших моделях создают иллюзию появления новых навыков в более крупных. Проще говоря, меньшая модель может быть почти правильной в своем ответе на вопрос, но поскольку она оценивается с использованием двоичного точного совпадения строк, она будет помечена как неправильная, тогда как более крупная модель достигнет цели и получит полное признание.

    Это нюансная ситуация. Да, более крупные модели могут обобщать текст и переводить языки. Да, более крупные модели, как правило, работают лучше и могут делать больше, чем более мелкие, но их внезапный прорыв в возможностях — неожиданное появление возможностей — это иллюзия: меньшие модели потенциально способны на то же самое, но эталонные тесты — нет. в их пользу. Тесты отдают предпочтение более крупным моделям, что заставляет людей в отрасли предполагать, что более крупные модели получают скачок в возможностях, как только они достигают определенного размера.

    На самом деле изменение способностей происходит более постепенно, по мере увеличения или уменьшения масштаба. Вывод для вас и меня заключается в том, что приложения могут не нуждаться в огромной, но сверхмощной языковой модели; меньший, который дешевле и быстрее в настройке, тестировании и запуске, может помочь.

    «Наше альтернативное объяснение, — как выразились ученые, — постулирует, что возникающие способности — это мираж, вызванный, прежде всего, тем, что исследователь выбирает метрику, которая нелинейно или прерывисто деформирует частоту ошибок на токен, и отчасти тем, что у него слишком мало тестовых данных для точной оценки. производительность меньших моделей (что приводит к тому, что меньшие модели кажутся полностью неспособными выполнить задачу) и частично из-за оценки слишком малого количества крупномасштабных моделей».

    Художественная литература LLM

    На вопрос, представляет ли эмерджентное поведение проблему только для тестировщиков моделей или также для пользователей моделей, Шеффер, аспирант Стэнфорда и соавтор статьи, ответил: Регистрэто и то, и другое.

    «Эмерджентное поведение, безусловно, беспокоит тестировщиков моделей, стремящихся оценить/сопоставить модели, но удовлетворенность тестировщиков часто является важной предпосылкой для того, чтобы языковая модель стала общедоступной или доступной, поэтому удовлетворенность тестировщиков влияет на последующих пользователей», — сказал он. Шеффер.

    Если эмерджентные способности не реальны, то меньшие модели вполне хороши, пока пользователь готов допускать некоторые ошибки время от времени.

    «Но я думаю, что есть и прямая связь с пользователем. Если эмерджентные способности реальны, то меньшие модели совершенно неспособны выполнять определенные задачи, а это означает, что у пользователя нет другого выбора, кроме как использовать максимально возможную модель, тогда как если эмерджентные способности не Если это действительно так, то с меньшими моделями все в порядке, если пользователь готов допускать некоторые ошибки время от времени. Если верно последнее, то у конечного пользователя значительно больше возможностей».

    Короче говоря, предполагаемые возникающие способности LLM возникают из-за того, как анализируются данные, а не из-за непредвиденных изменений в модели по мере ее масштабирования. Исследователи подчеркивают, что они не исключают возможности эмерджентного поведения у LLM; они просто заявляют, что предыдущие утверждения об эмерджентном поведении выглядят необдуманными показателями.

    «Наша работа не исключает неожиданного поведения модели», — пояснил Шеффер. «Тем не менее, это ставит под сомнение доказательства того, что модели действительно демонстрируют неожиданные изменения. Трудно доказать негативное экзистенциальное утверждение путем накопления доказательств (например, представьте, что вы пытаетесь убедить кого-то в том, что единороги не существуют, предоставляя доказательства существования не-единорогов!) заверил, что неожиданное поведение моделей менее вероятно».

    Это хорошая новость как с точки зрения снятия опасений по поводу непредвиденных результатов, так и с точки зрения финансовых затрат. Это означает, что модели меньшего размера, которые более доступны для запуска, не имеют недостатков из-за некоторого отклонения теста и, вероятно, достаточно хороши для выполнения требуемой работы. ®

    Предыдущая статьяКогда простое — это сильно
    Следующая статьяМы можем точно знать, когда Z Fold 5 и Z Flip 5 выйдут
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.