Meta разрабатывает метод обучения моделей изображений здравому смыслу

    0
    8


    Meta анонсировала модель компьютерного зрения, которая учится распознавать изображения, а также накапливает контекстные знания, которые делают искусственный интеллект менее громоздким и дорогостоящим.

    «Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится, создавая внутреннюю модель внешнего мира, которая сравнивает абстрактные представления изображений (вместо того, чтобы сравнивать сами пиксели)», — говорит бизнес данных, виртуальной реальности и искусственного интеллекта. объяснил в сообщении в блоге.

    «I-JEPA обеспечивает высокую производительность при выполнении нескольких задач компьютерного зрения и намного более эффективен в вычислительном отношении, чем другие широко используемые модели компьютерного зрения».

    Вычислительная эффективность означает, что для обучения требуется меньше времени графического процессора — Meta удалось обучить модель визуального преобразователя с 632 миллионами параметров с помощью 16 графических процессоров Nvidia A100 менее чем за 72 часа. Полученная в результате модель, по утверждению компании, превосходит другие методы, такие как Data2vec, контекстные автокодировщики и маскированные автокодировщики, для низкоуровневой классификации в наборе данных ImageNet.

    Meta утверждает, что альтернативные методы обучения с самоконтролем требуют от двух до 10 дополнительных часов работы графического процессора и имеют более низкий уровень ошибок при том же объеме данных.

    В статье, озаглавленной «Обучение с самоконтролем на основе изображений с помощью совместной встраиваемой прогностической архитектуры», ученые-металоги, в том числе откровенный пионер искусственного интеллекта Янн Лекун, объясняют, что I-JEPA работает, пытаясь предсказать недостающую информацию в разделенных частях изображений.

    В то время как генеративные методы (такие как Data2vec) обучаются, маскируя определенные входные данные и пытаясь предсказать отсутствующие пиксели, I-JEPA работает с более существенной областью — блоками, которые достаточно велики, чтобы передать семантические детали, которые придают фрагментам изображения больше смысла.

    Поскольку эти фрагменты передают контекстную информацию о соседних блоках, модель может использовать эту информацию для более точного прогнозирования.

    В результате I-JEPA менее подвержен ошибкам, таким как создание рук с дополнительными пальцами, при создании изображений. Генеративные архитектуры, говорит Мета, часто имеют проблемы с человеческими руками, потому что они пытаются заполнить каждый бит информации без концептуальной основы для сцены.

    Кроме того, как сообщается, нет необходимости в дополнительной тонкой настройке — обычном шаге с другими подходами.

    «I-JEPA демонстрирует потенциал архитектур для изучения конкурентоспособных готовых представлений изображений без необходимости дополнительных знаний, закодированных с помощью ручных преобразований изображений», — заявили ученые.

    Мета надеется, что I-JEPA приведет к самоконтролируемым методам обучения, которые включают в себя больше знаний о мире, основанных на здравом смысле. I-JEPA был выпущен как открытый исходный код под лицензией Creative Commons Attribution-NonCommercial 4.0 International Public License. ®

    Предыдущая статьяSpotify Offline Mix, функция YouTube Music Inspired
    Следующая статьяИнвесторы любят ИИ. Но иногда любви недостаточно
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.