Согласно исследованию, доступ к поисковым системам не улучшает способность чат-бота ИИ генерировать точные и актуальные ответы на запросы, а это означает, что разработчикам придется найти новые методы, чтобы сделать взаимодействие более полезным.
Большие языковые модели (LLM), такие как GPT-3.5 — основа для ChatGPT — до сентября 2021 года обучались на тексте, взятом из Интернета. Такие компании, как Google и Microsoft пытаются дополнить LLM поисковыми системами, предоставляя им доступ к знаниям на текущих веб-страницах.
Как показали их соответствующие чат-боты Bard и Bing, Google и Microsoft по-прежнему изо всех сил пытается дать точные ответы на поисковые запросы, даже если правильный ответ может быть где-то в Интернете.
«Можно подумать, что соединение поисковой системы и ChatGPT — идеальное решение, но на самом деле все сложнее из-за ограниченной точности результатов поиска», — сказал Хунъин Луо, научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института. Регистр.
Луо объясняет, что поисковые системы — это поисковые системы, основанные на ключевых словах, и не всегда дают прямые ответы на большинство вопросов. Кроме того, разные веб-страницы могут содержать несвязанную, противоречивую или ложную информацию. Bing неправильно заявлен Адольф Гитлер был участником группы Radiohead. в одном результате поиска, например.
Пользователи сети предположили, что ошибка могла быть вызвана страницей в Wikidata, на которой упоминались Radiohead и Адольф Гитлер.
Если Bard и Bing хотят быть полезными, разработчикам нужно выяснить, как заставить LLM извлекать наиболее полезную информацию из моря зашумленного, запутанного и непоследовательного текста. Луо и его коллеги из Массачусетского технологического института и Китайского университета Гонконга считают, что модели нуждаются в дальнейшей доработке, чтобы они могли лучше следовать инструкциям о том, как генерировать ответы для веб-поиска.
Команда доработала LLaMA от Meta, LLM с семью миллиардами параметров, настроив его на базу данных, содержащую 52 000 пар текстовых инструкций и соответствующих ответов, сгенерированных GPT-4. Исследователи также создали отдельный набор данных, содержащий пять лучших веб-страниц, связанных с каждой инструкцией, и обучили модель генерировать правильный ответ, ранжируя источники по тому, насколько они релевантны и тесно связаны с правильным ответом.
Луо сказал, что отлаженная модель, получившая прозвище SAIL-7B, что означает обучение инструкциям с расширенным поиском, лучше игнорирует отвлекающие или ненадежные результаты поиска и генерирует ответы более высокого качества. Подробности были опубликованы [PDF] в документе, опубликованном на arXiv, а код модели находится на GitHub. Вы также можете поиграть с демо-версией системы, размещенной на Hugging Face.
«Наша модель учится находить полезную информацию в зашумленных результатах поиска и генерировать как можно более точные ответы. В результате наша модель может лучше обобщать ценную информацию и генерировать более качественные ответы на различные поисковые запросы, даже если поисковые системы не очень хорошо с ними справляются. — сказал Луо.
«Наше обучение включает в себя шаг, который уточняет, является ли каждый результат поиска полезным или нет, и языковая модель следует за выбранной полезной информацией. Этот процесс отфильтровывает самые ненадежные и несвязанные результаты поиска и улучшает среднюю производительность выполнения инструкций».
Первоначальные эксперименты показали, что SAIL-7B превосходит GPT-3.5 и другие модели, содержащие больше параметров, в ряде задач. В экспериментах оценивалась их способность отвечать на здравый смысл и открытые вопросы, а также проверять факты и выявлять разжигание ненависти. Модели получали веб-страницы из Википедии и результаты поиска из DuckDuckGo, чтобы помочь им выбрать правильные ответы из списка ответов-кандидатов. Однако ГПТ-4 все же был лучше ПАРУС-7Б.
«Проблема в том, что более крупные модели обладают гораздо более сильными знаниями, способностями к запоминанию и рассуждению, поэтому наша модель пока не так хороша, как GPT-4. Однако SAIL-7B — это доказательство концепции «маленькой» модели, и наша следующая Шаг — это обучение более крупной модели с помощью предложенной нами стратегии», — сказал нам Луо.
Однако модели, точно настроенные с помощью современной технологии обучения с расширенным поиском, не идеальны. Исследователи отметили, что не могут объяснить почему результат поиска заслуживает доверия или нет. Они надеются придумать другую стратегию для повышения точности и надежности в будущем. ®