Будьте готовы к тому, что мультимодальный ИИ прыгнет через акулу в 2024 году

От

Петр Григорин

02.02.2024

Содержание скрыть

1 Ключевые выводы

2 Мультимодальный ИИ уже здесь

2.1 Это, наверное, в твоем телефоне

3 Открытые модели ускорят внедрение мультимодальных перевозок

3.1 Каждая компания присоединится к победителю

4 Мультимодальный режим откроет виртуальные возможности нового поколения

4.1 Игровые NPC, боты службы поддержки клиентов и многое другое.

4.2 Мультимодальный ИИ настроен на заполнение ваших каналов

Ключевые выводы

Мультимодальные модели ИИ откроют новую эру интуитивно понятных и динамичных приложений ИИ.
Смартфоны от Google и Samsung уже используют мультимодальные технологии искусственного интеллекта.
Мультимодальные модели искусственного интеллекта с открытым исходным кодом снизят входной барьер и будут способствовать широкому распространению в 2024 году.
Неигровые персонажи нового поколения и виртуальная реальность, основанные на мультимодальном искусственном интеллекте, будут захватывающими и далеко идущими.

2023 год принадлежал ИИ-моделям больших языков (LLM), таким как ChatGPT, Google Бард и многие другие. Это был бурный, беспрецедентный год развития искусственного интеллекта, основанный на новых технологиях, с которыми люди раньше не сталкивались. Верите ли вы, что ChatGPT, чат-бот OG AI, безраздельно господствует, или вы путаете ChatGPT, Microsoft Copilot и Google Бард, ты, вероятно, не готов к тому, что произойдет в этом году.

Мультимодальный ИИ уже здесь

Это, наверное, в твоем телефоне

Изображение Galaxy-s24-ультра-обзор-xda_20240119_103143

Возможно, вы этого не знаете, но мультимодальный ИИ находится в разработке уже довольно давно, с такими крупнейшими тяжеловесами, как Google, Meta и OpenAI были одними из первопроходцев. Даже в вашем телефоне, вероятно, есть какая-то форма мультимодального искусственного интеллекта, если вы используете один из Google Pixel 8 или Samsung Galaxy Устройства серии S24. Пока Google использует свою новую модель Gemini в Pixel телефоны, Samsung использует Gemini и некоторые запатентованные технологии в том, что они называют Galaxy ИИ.

Google планирует доставить Gemini в Google Поиск, Google Хром, Google Реклама и Duet AI.

В настоящее время эти телефоны ограничены несколькими впечатляющими вариантами использования, такими как живой перевод и устный перевод во время звонков, функции помощи в чате и генеративное редактирование фотографий. Но Google планирует доставить Gemini в Google Поиск, Google Хром, Google Реклама и Duet AI (для рабочих пространств для совместной работы). Другие известные мультимодальные модели искусственного интеллекта, такие как GPT-4V, уже используются клиентами ChatGPT Plus.

Помимо телефонов, мы увидим множество других продуктов, использующих мультимодальный ИИ, например, ИИ-помощник для умного дома от LG Electronics, который может стать вашим домашним менеджером и умным компаньоном благодаря своей способности анализировать множество входных данных и участвовать в сложных разговорах. Samsung также демонстрирует своего собственного робота-помощника Ballie, оснащенного совершенно новыми возможностями искусственного интеллекта, которые позволяют ему учиться у пользователей и предлагать персонализированные услуги.

Открытые модели ускорят внедрение мультимодальных перевозок

Каждая компания присоединится к победителю

Человек, использующий ноутбук в наушниках

Многие существующие мультимодальные модели ИИ из Google, OpenAI и другие плееры являются собственностью. Но в 2024 году будет появляться все больше и больше открытых моделей, которые будут легко доступны каждому. У Meta уже есть модель с открытым исходным кодом под названием Llama 2, а Mistral AI бесплатно предлагает всем желающим свой Mixtral-8x7B. Вскоре эти модели ИИ с открытым исходным кодом снизят входной барьер для предприятий, позволяющих использовать возможности мультимодального ИИ.

Возможность контекстуализации ввода текста с учетом тона голоса, выражения лица, движений тела и прошлых взаимодействий будет исключительной.

Будь то производительность рабочего пространства, интеллектуальное принятие решений или другие смелые интуитивные функции в новых приложениях, которые появятся в этом году, мультимодальный ИИ обладает уникальной способностью предлагать гораздо больше, чем унимодальные модели ИИ. Возможность контекстуализации ввода текста с учетом тона голоса, выражения лица, движений тела и прошлых взаимодействий будет исключительной. Это превратит модели ИИ из блокнотов и инструментов повышения производительности в интеллектуальных помощников, которые смогут выступать в качестве ценных членов команды.

А модели с открытым исходным кодом, доступные всем и каждому, станут ключом к широкому внедрению мультимодального ИИ в 2024 году.

Мультимодальный режим откроет виртуальные возможности нового поколения

Игровые NPC, боты службы поддержки клиентов и многое другое.

Лично мне очень интересно увидеть, как мультимодальные модели искусственного интеллекта изменят видеоигры и другие виртуальные впечатления в этом году. Nvidia уже продемонстрировала NVIDIA ACE (Avatar Cloud Engine) — набор технологий, которые разработчики могут использовать для усиления неигровых персонажей (NPC) с помощью первоклассных генеративных моделей искусственного интеллекта. Пройдет немного времени, и в следующей большой ААА-игре вы сможете взаимодействовать с любым NPC не только текстом, но и голосом.

Мне интересно увидеть, как эти технологии будут использоваться в VR-играх и других сценариях смешанной реальности.

Inworld AI — еще один движок персонажей, который позволяет разработчикам создавать неигровых персонажей, которые могут взаимодействовать, используя естественный язык, голос, анимацию и эмоции. Мне интересно увидеть, как эти технологии будут использоваться в VR-играх и других сценариях смешанной реальности. И не только для игр: компании могут использовать это меняющий правила игры Технология для создания невероятно реалистичных чат-ботов для клиентов, которые могут реагировать на каждое ваше слово, движение и эмоцию.

Мультимодальный ИИ настроен на заполнение ваших каналов

Несмотря на огромный потенциал мультимодального ИИ, неизбежно найдутся компании, которые просто попытаются нажиться на этой шумихе. В результате термин «мультимодальный» станет неизбежным во всех ваших социальных сетях и точках взаимодействия в Интернете. Будь то конечные пользователи или предприятия, никто пока не может понять, как будет развиваться эта революция ИИ. Все, что мы можем сделать, это оставаться в курсе событий и держаться подальше от легкомысленных реализаций этой новой технологии.

Реальное влияние мультимодального ИИ будет зависеть от разработчиков, которые действительно понимают потребности и поведение клиентов и чьи приложения используют эту технологию для создания точных решений для их удовлетворения.

Будьте готовы к тому, что мультимодальный ИИ прыгнет через акулу в 2024 году

Ключевые выводы

Мультимодальный ИИ уже здесь

Это, наверное, в твоем телефоне

Открытые модели ускорят внедрение мультимодальных перевозок

Каждая компания присоединится к победителю

Мультимодальный режим откроет виртуальные возможности нового поколения

Игровые NPC, боты службы поддержки клиентов и многое другое.

Мультимодальный ИИ настроен на заполнение ваших каналов

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Xiaomi выпускает Android 11 Beta 1 для Mi 10 и Mi...

Ключевые выводы

Мультимодальный ИИ уже здесь

Это, наверное, в твоем телефоне

Открытые модели ускорят внедрение мультимодальных перевозок

Каждая компания присоединится к победителю

Мультимодальный режим откроет виртуальные возможности нового поколения

Игровые NPC, боты службы поддержки клиентов и многое другое.

Мультимодальный ИИ настроен на заполнение ваших каналов

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

6 вещей, которые я бы делал по -другому при строительстве домашнего офиса с нуля

Umidigi сияет на гонконгской мобильной электронике с A100 5G и G100

Мой выбор для лучшей бесплатной альтернативы TeamViewer

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Xiaomi выпускает Android 11 Beta 1 для Mi 10 и Mi...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА