Домой Softnews Meta разрабатывает метод обучения моделей изображений здравому смыслу

Meta разрабатывает метод обучения моделей изображений здравому смыслу

Meta разрабатывает метод обучения моделей изображений здравому смыслу

[ad_1]

Meta анонсировала модель компьютерного зрения, которая учится распознавать изображения, а также накапливает контекстные знания, которые делают искусственный интеллект менее громоздким и дорогостоящим.

«Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится, создавая внутреннюю модель внешнего мира, которая сравнивает абстрактные представления изображений (вместо того, чтобы сравнивать сами пиксели)», — говорит бизнес данных, виртуальной реальности и искусственного интеллекта. объяснил в сообщении в блоге.

«I-JEPA обеспечивает высокую производительность при выполнении нескольких задач компьютерного зрения и намного более эффективен в вычислительном отношении, чем другие широко используемые модели компьютерного зрения».

Вычислительная эффективность означает, что для обучения требуется меньше времени графического процессора — Meta удалось обучить модель визуального преобразователя с 632 миллионами параметров с помощью 16 графических процессоров Nvidia A100 менее чем за 72 часа. Полученная в результате модель, по утверждению компании, превосходит другие методы, такие как Data2vec, контекстные автокодировщики и маскированные автокодировщики, для низкоуровневой классификации в наборе данных ImageNet.

Meta утверждает, что альтернативные методы обучения с самоконтролем требуют от двух до 10 дополнительных часов работы графического процессора и имеют более низкий уровень ошибок при том же объеме данных.

В статье, озаглавленной «Обучение с самоконтролем на основе изображений с помощью совместной встраиваемой прогностической архитектуры», ученые-металоги, в том числе откровенный пионер искусственного интеллекта Янн Лекун, объясняют, что I-JEPA работает, пытаясь предсказать недостающую информацию в разделенных частях изображений.

В то время как генеративные методы (такие как Data2vec) обучаются, маскируя определенные входные данные и пытаясь предсказать отсутствующие пиксели, I-JEPA работает с более существенной областью — блоками, которые достаточно велики, чтобы передать семантические детали, которые придают фрагментам изображения больше смысла.

Поскольку эти фрагменты передают контекстную информацию о соседних блоках, модель может использовать эту информацию для более точного прогнозирования.

В результате I-JEPA менее подвержен ошибкам, таким как создание рук с дополнительными пальцами, при создании изображений. Генеративные архитектуры, говорит Мета, часто имеют проблемы с человеческими руками, потому что они пытаются заполнить каждый бит информации без концептуальной основы для сцены.

Кроме того, как сообщается, нет необходимости в дополнительной тонкой настройке — обычном шаге с другими подходами.

«I-JEPA демонстрирует потенциал архитектур для изучения конкурентоспособных готовых представлений изображений без необходимости дополнительных знаний, закодированных с помощью ручных преобразований изображений», — заявили ученые.

Мета надеется, что I-JEPA приведет к самоконтролируемым методам обучения, которые включают в себя больше знаний о мире, основанных на здравом смысле. I-JEPA был выпущен как открытый исходный код под лицензией Creative Commons Attribution-NonCommercial 4.0 International Public License. ®

[ad_2]

Предыдущая статья Spotify Offline Mix, функция YouTube Music Inspired
Следующая статья Инвесторы любят ИИ. Но иногда любви недостаточно
Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.