Meta открыла ресурс машинного обучения, который однажды может заменить Википедию в качестве крупнейшей в мире общедоступной базы данных для проверки знаний.
Нам сказали, что эта программа, получившая название Sphere, может использоваться для выполнения ресурсоемкой обработки естественного языка, или KI-NLP. С практической точки зрения это означает, что его можно использовать для ответов на сложные вопросы с использованием естественного языка и поиска источников утверждений.
Приведенный пример его использования – это вопрос Сферы: «Кто такая Жоэль Самби Нзеба?» В Википедии нет о ней записи, но Сфера сообщила, что она «родилась в Бельгии и частично выросла в Киншасе (Конго). В настоящее время она живет в Брюсселе. ” и ссылки на веб-сайт, где она получила эту информацию о ее работе.
Википедия в значительной степени послужила сводом записей, писали яйцеголовые из Meta в статье, посвященной дизайну Sphere, утверждая, что поддерживаемая добровольцами убер-вики «точна, хорошо структурирована и достаточно мала, чтобы ее можно было легко использовать в тестовых средах».
Однако, стремясь создать что-то большее и лучшее, чем Википедия, Meta собрала контент со всего Интернета, чтобы сформировать «универсальный, некурируемый и неструктурированный источник знаний для нескольких задач KI-NLP одновременно». Результатом стала Sphere, представляющая собой более или менее гору обработанных данных, которые можно запрашивать с помощью множества инструментов машинного обучения.
Команда добавляет, что Sphere «может соответствовать базовым показателям, основанным на Википедии, и превосходить их» в некоторых задачах с использованием теста KILT AI. Другими словами, Sphere работает лучше, чем системы искусственного интеллекта, построенные на материалах Википедии.
Основная цель Sphere состояла в том, чтобы увидеть, какое влияние замена Википедии в качестве источника оказала на производительность наукоемких систем, и хотя команда сообщила, что у Sphere были некоторые проблемы, его производительность указывает на то, что, по крайней мере, может повысить ценность задач KI-NLP сверх того, что могут предложить корпуса Википедии.
Исследователи Sphere заявляют, что их работа знаменует собой «первый случай, когда поисковый индекс общего назначения улучшает языковые модели для задач здравого смысла».
Sphere — не единственная платформа искусственного интеллекта, которую Meta выпустила на GitHub: на прошлой неделе она выпустила NLLB-200, первый искусственный интеллект для перевода, преодолевший порог в 200 языков, по крайней мере, так утверждал родитель Facebook. Как и Sphere, NLLB-200 используется в Википедии; первая система для автоматической проверки цитат в отредактированных статьях, а вторая – для улучшения перевода страниц на менее распространенные языки.
При переходе на веб-корпус у нас больше нет уверенности, что какой-либо документ хорош, правдив или уникален.
С точки зрения масштаба Sphere выходит за рамки аналогичных веб-корпусов, состоящих из 906 миллионов отрывков и 134 миллионов документов. Следующим по объему отрывков/документов является генератор расширенных диалогов в Интернете, который извлекает данные из 250 миллионов отрывков и 109 миллионов документов.
Но в Интернете нет средств контроля качества или точности, что, по признанию исследователей, является ключевой проблемой для фактического развертывания этой штуки. «Использование Википедии в качестве источника знаний позволяет исследователям исходить из высокого качества корпусных документов. При переходе на веб-корпус у нас больше нет уверенности в том, что какой-либо документ хорош, правдив или уникален», — пишут исследователи.
Создатели Sphere считают, что повторяющиеся усилия должны быть сосредоточены на оценке качества получаемых данных, обнаружении ложных заявлений и противоречий, определении приоритетов надежных источников и принятии решения не отвечать на вопрос из-за недостатка информации. Вы знаете, сделать его действительно полезным.
По словам Мета, если он сможет успешно превратить Sphere в ИИ «белого ящика» с надежной и достоверной информацией, Sphere «может стать следующим большим прорывом в НЛП». ®