Meta разрабатывает метод обучения моделей изображений здравому смыслу

От

14.06.2023

Meta анонсировала модель компьютерного зрения, которая учится распознавать изображения, а также накапливает контекстные знания, которые делают искусственный интеллект менее громоздким и дорогостоящим.

«Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится, создавая внутреннюю модель внешнего мира, которая сравнивает абстрактные представления изображений (вместо того, чтобы сравнивать сами пиксели)», — говорит бизнес данных, виртуальной реальности и искусственного интеллекта. объяснил в сообщении в блоге.

«I-JEPA обеспечивает высокую производительность при выполнении нескольких задач компьютерного зрения и намного более эффективен в вычислительном отношении, чем другие широко используемые модели компьютерного зрения».

Вычислительная эффективность означает, что для обучения требуется меньше времени графического процессора — Meta удалось обучить модель визуального преобразователя с 632 миллионами параметров с помощью 16 графических процессоров Nvidia A100 менее чем за 72 часа. Полученная в результате модель, по утверждению компании, превосходит другие методы, такие как Data2vec, контекстные автокодировщики и маскированные автокодировщики, для низкоуровневой классификации в наборе данных ImageNet.

Meta утверждает, что альтернативные методы обучения с самоконтролем требуют от двух до 10 дополнительных часов работы графического процессора и имеют более низкий уровень ошибок при том же объеме данных.

В статье, озаглавленной «Обучение с самоконтролем на основе изображений с помощью совместной встраиваемой прогностической архитектуры», ученые-металоги, в том числе откровенный пионер искусственного интеллекта Янн Лекун, объясняют, что I-JEPA работает, пытаясь предсказать недостающую информацию в разделенных частях изображений.

Читайте также:

Тратить, чтобы сэкономить?

В то время как генеративные методы (такие как Data2vec) обучаются, маскируя определенные входные данные и пытаясь предсказать отсутствующие пиксели, I-JEPA работает с более существенной областью — блоками, которые достаточно велики, чтобы передать семантические детали, которые придают фрагментам изображения больше смысла.

Поскольку эти фрагменты передают контекстную информацию о соседних блоках, модель может использовать эту информацию для более точного прогнозирования.

В результате I-JEPA менее подвержен ошибкам, таким как создание рук с дополнительными пальцами, при создании изображений. Генеративные архитектуры, говорит Мета, часто имеют проблемы с человеческими руками, потому что они пытаются заполнить каждый бит информации без концептуальной основы для сцены.

Кроме того, как сообщается, нет необходимости в дополнительной тонкой настройке — обычном шаге с другими подходами.

«I-JEPA демонстрирует потенциал архитектур для изучения конкурентоспособных готовых представлений изображений без необходимости дополнительных знаний, закодированных с помощью ручных преобразований изображений», — заявили ученые.

Мета надеется, что I-JEPA приведет к самоконтролируемым методам обучения, которые включают в себя больше знаний о мире, основанных на здравом смысле. I-JEPA был выпущен как открытый исходный код под лицензией Creative Commons Attribution-NonCommercial 4.0 International Public License. ®

Meta разрабатывает метод обучения моделей изображений здравому смыслу

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Проводник Windows стал быстрее благодаря одной странной ошибке

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Проводник Windows стал быстрее благодаря одной странной ошибке

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА