Исследователи из материнской компании Facebook Meta обучили единую модель ИИ, способную обрабатывать речь, изображения и текст, в надежде, что эти так называемые мультимодальные системы будут использоваться в продуктах дополненной реальности и метавселенной компании.
Модель, известная как data2vec, может выполнять разные задачи. Учитывая фрагмент аудио, он может распознавать речь. Если ему подается изображение, он может классифицировать объекты. А столкнувшись с текстом, он может проверить грамматику или проанализировать тон и эмоции письма.
Алгоритмы ИИ обычно обучаются на одном типе данных, хотя data2vec обучается на трех разных модальностях. Однако он по-прежнему обрабатывает каждую форму, будь то речь, изображения и текст, отдельно.
Мета считает, что эти мультимодальные модели помогут компьютерам лучше адаптироваться к объединению физических и цифровых сред в одно целое. «Люди познают мир с помощью комбинации зрения, звука и слов, и подобные системы однажды смогут понять мир так же, как мы», — заявил генеральный директор Meta Марк Цукерберг в заявлении для Эль Рег.
«Все это в конечном итоге будет встроено в очки дополненной реальности с помощником ИИ, поэтому, например, это может помочь вам приготовить ужин, заметив, если вы пропустите ингредиент, предложит вам выключить огонь или выполнить более сложные задачи».
Data2vec — это нейронная сеть на основе преобразователя, которая использует самоконтролируемое обучение для изучения общих закономерностей в аудио, компьютерном зрении и обработке естественного языка. Модель учится работать с различными типами данных, учась предсказывать, какое представление данных она дает; он знает, что должен угадать следующую группу пикселей при получении изображения, или следующее произнесение речи в аудио, или заполнить словами предложение.
Исследователи использовали сочетание 16 графических процессоров Nvidia V100 и A100 для обучения data2vec на 960 часах речевого аудио, миллионах слов из книг и страниц Википедии, а также изображениях из ImageNet-1K.
«Мы обучаем отдельные модели для каждой модальности, но процесс обучения моделей идентичен», — сказал Алексей Баевский, инженер-исследователь Meta AI. Регистр.
«Мы надеемся, что это позволит в будущем работать над созданием высокопроизводительных моделей самоконтроля, которые сочетают в себе модальности и являются более эффективными, чем специализированные модели. Различные модальности могут добавлять дополнительную информацию к одному и тому же фрагменту контента — например, язык тела из видео, просодическую информацию. из аудио и текста можно комбинировать в более богатое представление диалога. Алгоритмы, которые в настоящее время пытаются комбинировать мультимодальную информацию, существуют, но они еще не работают достаточно хорошо, чтобы заменить специализированные алгоритмы, и мы надеемся, что наша работа поможет это изменить».
Баевски сказал, что в будущем мультимодальные системы могут включать в себя более широкий спектр данных для моделирования таких понятий, как запах, трехмерные объекты или видео. Он упомянул идею о том, что очки дополненной реальности помогают владельцам готовить.
«Представьте, что у вас есть модель, обученная на записях тысяч часов кулинарной деятельности различных ресторанов и шеф-поваров. Затем, когда вы готовите на кухне в очках дополненной реальности, у которых есть доступ к этой модели, она может накладывать визуальные подсказки. что вам нужно делать дальше, указать на возможные ошибки или объяснить, как добавление того или иного ингредиента повлияет на вкус вашего блюда», — сказал он нам.
Предыдущие исследования мультимодальных систем показали, что они могут быть легко подвержены враждебным атакам. Например, модель CLIP OpenAI, обученная на изображениях и тексте, неправильно идентифицирует изображение яблока как iPod, если на картинке присутствует слово «iPod». Однако неясно, страдает ли data2vec подобными недостатками.
«Мы специально не анализировали, как наши модели будут реагировать на враждебные примеры, но поскольку наши текущие модели обучаются отдельно для каждой модальности, мы считаем, что существующие исследования по анализу враждебных атак для каждой модальности также применимы к нашей работе», — сказал Баевски. .
«В будущем мы надеемся использовать нашу работу для включения высокопроизводительных алгоритмов, которые объединяют модальности в одной модели, и мы планируем изучить, насколько они восприимчивы к атакам со стороны».
Когда исследователи протестировали data2vec, он превзошел некоторые лучшие модели, обученные на определенном типе данных, только на разных типах задач. Предварительные результаты описаны в статье [PDF]а код опубликован на GitHub.
«Data2vec демонстрирует, что один и тот же самоконтролируемый алгоритм может хорошо работать в разных модальностях — и часто лучше, чем лучшие существующие алгоритмы», — объяснили исследователи в своем блоге на этой неделе.
«Это прокладывает путь к более общему самоконтролируемому обучению и приближает нас к миру, где ИИ может использовать видео, статьи и аудиозаписи, чтобы изучать сложные предметы, такие как игра в футбол или различные способы выпечки хлеба. Мы также надеемся, что data2vec приблизит нас к миру, в котором компьютерам требуется очень мало размеченных данных для выполнения задач». ®