
[ad_1]
Meta анонсировала модель компьютерного зрения, которая учится распознавать изображения, а также накапливает контекстные знания, которые делают искусственный интеллект менее громоздким и дорогостоящим.
«Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится, создавая внутреннюю модель внешнего мира, которая сравнивает абстрактные представления изображений (вместо того, чтобы сравнивать сами пиксели)», — говорит бизнес данных, виртуальной реальности и искусственного интеллекта. объяснил в сообщении в блоге.
«I-JEPA обеспечивает высокую производительность при выполнении нескольких задач компьютерного зрения и намного более эффективен в вычислительном отношении, чем другие широко используемые модели компьютерного зрения».
Вычислительная эффективность означает, что для обучения требуется меньше времени графического процессора — Meta удалось обучить модель визуального преобразователя с 632 миллионами параметров с помощью 16 графических процессоров Nvidia A100 менее чем за 72 часа. Полученная в результате модель, по утверждению компании, превосходит другие методы, такие как Data2vec, контекстные автокодировщики и маскированные автокодировщики, для низкоуровневой классификации в наборе данных ImageNet.
Meta утверждает, что альтернативные методы обучения с самоконтролем требуют от двух до 10 дополнительных часов работы графического процессора и имеют более низкий уровень ошибок при том же объеме данных.
В статье, озаглавленной «Обучение с самоконтролем на основе изображений с помощью совместной встраиваемой прогностической архитектуры», ученые-металоги, в том числе откровенный пионер искусственного интеллекта Янн Лекун, объясняют, что I-JEPA работает, пытаясь предсказать недостающую информацию в разделенных частях изображений.
В то время как генеративные методы (такие как Data2vec) обучаются, маскируя определенные входные данные и пытаясь предсказать отсутствующие пиксели, I-JEPA работает с более существенной областью — блоками, которые достаточно велики, чтобы передать семантические детали, которые придают фрагментам изображения больше смысла.
Поскольку эти фрагменты передают контекстную информацию о соседних блоках, модель может использовать эту информацию для более точного прогнозирования.
В результате I-JEPA менее подвержен ошибкам, таким как создание рук с дополнительными пальцами, при создании изображений. Генеративные архитектуры, говорит Мета, часто имеют проблемы с человеческими руками, потому что они пытаются заполнить каждый бит информации без концептуальной основы для сцены.
Кроме того, как сообщается, нет необходимости в дополнительной тонкой настройке — обычном шаге с другими подходами.
«I-JEPA демонстрирует потенциал архитектур для изучения конкурентоспособных готовых представлений изображений без необходимости дополнительных знаний, закодированных с помощью ручных преобразований изображений», — заявили ученые.
Мета надеется, что I-JEPA приведет к самоконтролируемым методам обучения, которые включают в себя больше знаний о мире, основанных на здравом смысле. I-JEPA был выпущен как открытый исходный код под лицензией Creative Commons Attribution-NonCommercial 4.0 International Public License. ®
[ad_2]