Будьте готовы к тому, что мультимодальный ИИ прыгнет через акулу в 2024 году

    0
    2


    Ключевые выводы

    • Мультимодальные модели ИИ откроют новую эру интуитивно понятных и динамичных приложений ИИ.
    • Смартфоны от Google и Samsung уже используют мультимодальные технологии искусственного интеллекта.
    • Мультимодальные модели искусственного интеллекта с открытым исходным кодом снизят входной барьер и будут способствовать широкому распространению в 2024 году.
    • Неигровые персонажи нового поколения и виртуальная реальность, основанные на мультимодальном искусственном интеллекте, будут захватывающими и далеко идущими.


    2023 год принадлежал ИИ-моделям больших языков (LLM), таким как ChatGPT, Google Бард и многие другие. Это был бурный, беспрецедентный год развития искусственного интеллекта, основанный на новых технологиях, с которыми люди раньше не сталкивались. Верите ли вы, что ChatGPT, чат-бот OG AI, безраздельно господствует, или вы путаете ChatGPT, Microsoft Copilot и Google Бард, ты, вероятно, не готов к тому, что произойдет в этом году.

    Какими бы впечатляющими ни были ChatGPT, DALL-E, MusicLM и бесчисленное множество других моделей искусственного интеллекта, они по-прежнему унимодальны — принимают один режим ввода, обычно текст. Но мультимодальный ИИ изменит правила игры в этом зарождающемся пространстве. Благодаря способности обрабатывать несколько входных данных, таких как текст, голос, видео, тепловые данные и т. д., мультимодальные модели искусственного интеллекта, такие как GPT-4V, Google Gemini и Meta ImageBind открывают новую революционную эру интуитивно понятных и динамичных приложений искусственного интеллекта.


    Мультимодальный ИИ уже здесь

    Это, наверное, в твоем телефоне

    Изображение Galaxy-s24-ультра-обзор-xda_20240119_103143

    Возможно, вы этого не знаете, но мультимодальный ИИ находится в разработке уже довольно давно, с такими крупнейшими тяжеловесами, как Google, Meta и OpenAI были одними из первопроходцев. Даже в вашем телефоне, вероятно, есть какая-то форма мультимодального искусственного интеллекта, если вы используете один из Google Pixel 8 или Samsung Galaxy Устройства серии S24. Пока Google использует свою новую модель Gemini в Pixel телефоны, Samsung использует Gemini и некоторые запатентованные технологии в том, что они называют Galaxy ИИ.

    Google планирует доставить Gemini в Google Поиск, Google Хром, Google Реклама и Duet AI.

    В настоящее время эти телефоны ограничены несколькими впечатляющими вариантами использования, такими как живой перевод и устный перевод во время звонков, функции помощи в чате и генеративное редактирование фотографий. Но Google планирует доставить Gemini в Google Поиск, Google Хром, Google Реклама и Duet AI (для рабочих пространств для совместной работы). Другие известные мультимодальные модели искусственного интеллекта, такие как GPT-4V, уже используются клиентами ChatGPT Plus.

    Помимо телефонов, мы увидим множество других продуктов, использующих мультимодальный ИИ, например, ИИ-помощник для умного дома от LG Electronics, который может стать вашим домашним менеджером и умным компаньоном благодаря своей способности анализировать множество входных данных и участвовать в сложных разговорах. Samsung также демонстрирует своего собственного робота-помощника Ballie, оснащенного совершенно новыми возможностями искусственного интеллекта, которые позволяют ему учиться у пользователей и предлагать персонализированные услуги.

    Открытые модели ускорят внедрение мультимодальных перевозок

    Каждая компания присоединится к победителю

    Человек, использующий ноутбук в наушниках

    Многие существующие мультимодальные модели ИИ из Google, OpenAI и другие плееры являются собственностью. Но в 2024 году будет появляться все больше и больше открытых моделей, которые будут легко доступны каждому. У Meta уже есть модель с открытым исходным кодом под названием Llama 2, а Mistral AI бесплатно предлагает всем желающим свой Mixtral-8x7B. Вскоре эти модели ИИ с открытым исходным кодом снизят входной барьер для предприятий, позволяющих использовать возможности мультимодального ИИ.

    Возможность контекстуализации ввода текста с учетом тона голоса, выражения лица, движений тела и прошлых взаимодействий будет исключительной.

    Будь то производительность рабочего пространства, интеллектуальное принятие решений или другие смелые интуитивные функции в новых приложениях, которые появятся в этом году, мультимодальный ИИ обладает уникальной способностью предлагать гораздо больше, чем унимодальные модели ИИ. Возможность контекстуализации ввода текста с учетом тона голоса, выражения лица, движений тела и прошлых взаимодействий будет исключительной. Это превратит модели ИИ из блокнотов и инструментов повышения производительности в интеллектуальных помощников, которые смогут выступать в качестве ценных членов команды.

    А модели с открытым исходным кодом, доступные всем и каждому, станут ключом к широкому внедрению мультимодального ИИ в 2024 году.

    Мультимодальный режим откроет виртуальные возможности нового поколения

    Игровые NPC, боты службы поддержки клиентов и многое другое.

    Мужчина разговаривает с персонажем с искусственным интеллектом в видеоигре

    Лично мне очень интересно увидеть, как мультимодальные модели искусственного интеллекта изменят видеоигры и другие виртуальные впечатления в этом году. Nvidia уже продемонстрировала NVIDIA ACE (Avatar Cloud Engine) — набор технологий, которые разработчики могут использовать для усиления неигровых персонажей (NPC) с помощью первоклассных генеративных моделей искусственного интеллекта. Пройдет немного времени, и в следующей большой ААА-игре вы сможете взаимодействовать с любым NPC не только текстом, но и голосом.

    Мне интересно увидеть, как эти технологии будут использоваться в VR-играх и других сценариях смешанной реальности.

    Inworld AI — еще один движок персонажей, который позволяет разработчикам создавать неигровых персонажей, которые могут взаимодействовать, используя естественный язык, голос, анимацию и эмоции. Мне интересно увидеть, как эти технологии будут использоваться в VR-играх и других сценариях смешанной реальности. И не только для игр: компании могут использовать это меняющий правила игры Технология для создания невероятно реалистичных чат-ботов для клиентов, которые могут реагировать на каждое ваше слово, движение и эмоцию.

    Мультимодальный ИИ настроен на заполнение ваших каналов

    Несмотря на огромный потенциал мультимодального ИИ, неизбежно найдутся компании, которые просто попытаются нажиться на этой шумихе. В результате термин «мультимодальный» станет неизбежным во всех ваших социальных сетях и точках взаимодействия в Интернете. Будь то конечные пользователи или предприятия, никто пока не может понять, как будет развиваться эта революция ИИ. Все, что мы можем сделать, это оставаться в курсе событий и держаться подальше от легкомысленных реализаций этой новой технологии.

    Реальное влияние мультимодального ИИ будет зависеть от разработчиков, которые действительно понимают потребности и поведение клиентов и чьи приложения используют эту технологию для создания точных решений для их удовлетворения.

    Предыдущая статьяGalaxy В конце концов, режим яркого дисплея S24 может работать так, как задумано.
    Следующая статьяGoogle говорит, что стоимость одного транзисторного чипа перестала дешеветь 10 лет назад
    Петр Григорин
    Интересуется софтом, разработкой и использование новых приложений, технология искусственного интеллекта. Этот писатель - человек с техническими знаниями, который увлечен разработкой программного обеспечения и использованием новых приложений. Его особенно интересуют технологии искусственного интеллекта и то, как они могут быть использованы для улучшения различных отраслей промышленности и повседневной жизни. Обладая прочной основой в области информатики и острым взглядом на инновации, этот писатель обязательно привнесет ценные идеи и соображения в любую дискуссию на эти темы. Пишет ли он о последних открытиях в области ИИ или исследует потенциал новых программных инструментов, его работа обязательно будет увлекательной и заставляющей задуматься.