Ключевые выводы
- Мультимодальные модели ИИ откроют новую эру интуитивно понятных и динамичных приложений ИИ.
- Смартфоны от Google и Samsung уже используют мультимодальные технологии искусственного интеллекта.
- Мультимодальные модели искусственного интеллекта с открытым исходным кодом снизят входной барьер и будут способствовать широкому распространению в 2024 году.
- Неигровые персонажи нового поколения и виртуальная реальность, основанные на мультимодальном искусственном интеллекте, будут захватывающими и далеко идущими.
2023 год принадлежал ИИ-моделям больших языков (LLM), таким как ChatGPT, Google Бард и многие другие. Это был бурный, беспрецедентный год развития искусственного интеллекта, основанный на новых технологиях, с которыми люди раньше не сталкивались. Верите ли вы, что ChatGPT, чат-бот OG AI, безраздельно господствует, или вы путаете ChatGPT, Microsoft Copilot и Google Бард, ты, вероятно, не готов к тому, что произойдет в этом году.
Какими бы впечатляющими ни были ChatGPT, DALL-E, MusicLM и бесчисленное множество других моделей искусственного интеллекта, они по-прежнему унимодальны — принимают один режим ввода, обычно текст. Но мультимодальный ИИ изменит правила игры в этом зарождающемся пространстве. Благодаря способности обрабатывать несколько входных данных, таких как текст, голос, видео, тепловые данные и т. д., мультимодальные модели искусственного интеллекта, такие как GPT-4V, Google Gemini и Meta ImageBind открывают новую революционную эру интуитивно понятных и динамичных приложений искусственного интеллекта.
Мультимодальный ИИ уже здесь
Это, наверное, в твоем телефоне
Возможно, вы этого не знаете, но мультимодальный ИИ находится в разработке уже довольно давно, с такими крупнейшими тяжеловесами, как Google, Meta и OpenAI были одними из первопроходцев. Даже в вашем телефоне, вероятно, есть какая-то форма мультимодального искусственного интеллекта, если вы используете один из Google Pixel 8 или Samsung Galaxy Устройства серии S24. Пока Google использует свою новую модель Gemini в Pixel телефоны, Samsung использует Gemini и некоторые запатентованные технологии в том, что они называют Galaxy ИИ.
Google планирует доставить Gemini в Google Поиск, Google Хром, Google Реклама и Duet AI.
В настоящее время эти телефоны ограничены несколькими впечатляющими вариантами использования, такими как живой перевод и устный перевод во время звонков, функции помощи в чате и генеративное редактирование фотографий. Но Google планирует доставить Gemini в Google Поиск, Google Хром, Google Реклама и Duet AI (для рабочих пространств для совместной работы). Другие известные мультимодальные модели искусственного интеллекта, такие как GPT-4V, уже используются клиентами ChatGPT Plus.
Помимо телефонов, мы увидим множество других продуктов, использующих мультимодальный ИИ, например, ИИ-помощник для умного дома от LG Electronics, который может стать вашим домашним менеджером и умным компаньоном благодаря своей способности анализировать множество входных данных и участвовать в сложных разговорах. Samsung также демонстрирует своего собственного робота-помощника Ballie, оснащенного совершенно новыми возможностями искусственного интеллекта, которые позволяют ему учиться у пользователей и предлагать персонализированные услуги.
Открытые модели ускорят внедрение мультимодальных перевозок
Каждая компания присоединится к победителю
Многие существующие мультимодальные модели ИИ из Google, OpenAI и другие плееры являются собственностью. Но в 2024 году будет появляться все больше и больше открытых моделей, которые будут легко доступны каждому. У Meta уже есть модель с открытым исходным кодом под названием Llama 2, а Mistral AI бесплатно предлагает всем желающим свой Mixtral-8x7B. Вскоре эти модели ИИ с открытым исходным кодом снизят входной барьер для предприятий, позволяющих использовать возможности мультимодального ИИ.
Возможность контекстуализации ввода текста с учетом тона голоса, выражения лица, движений тела и прошлых взаимодействий будет исключительной.
Будь то производительность рабочего пространства, интеллектуальное принятие решений или другие смелые интуитивные функции в новых приложениях, которые появятся в этом году, мультимодальный ИИ обладает уникальной способностью предлагать гораздо больше, чем унимодальные модели ИИ. Возможность контекстуализации ввода текста с учетом тона голоса, выражения лица, движений тела и прошлых взаимодействий будет исключительной. Это превратит модели ИИ из блокнотов и инструментов повышения производительности в интеллектуальных помощников, которые смогут выступать в качестве ценных членов команды.
А модели с открытым исходным кодом, доступные всем и каждому, станут ключом к широкому внедрению мультимодального ИИ в 2024 году.
Мультимодальный режим откроет виртуальные возможности нового поколения
Игровые NPC, боты службы поддержки клиентов и многое другое.
Лично мне очень интересно увидеть, как мультимодальные модели искусственного интеллекта изменят видеоигры и другие виртуальные впечатления в этом году. Nvidia уже продемонстрировала NVIDIA ACE (Avatar Cloud Engine) — набор технологий, которые разработчики могут использовать для усиления неигровых персонажей (NPC) с помощью первоклассных генеративных моделей искусственного интеллекта. Пройдет немного времени, и в следующей большой ААА-игре вы сможете взаимодействовать с любым NPC не только текстом, но и голосом.
Мне интересно увидеть, как эти технологии будут использоваться в VR-играх и других сценариях смешанной реальности.
Inworld AI — еще один движок персонажей, который позволяет разработчикам создавать неигровых персонажей, которые могут взаимодействовать, используя естественный язык, голос, анимацию и эмоции. Мне интересно увидеть, как эти технологии будут использоваться в VR-играх и других сценариях смешанной реальности. И не только для игр: компании могут использовать это меняющий правила игры Технология для создания невероятно реалистичных чат-ботов для клиентов, которые могут реагировать на каждое ваше слово, движение и эмоцию.
Мультимодальный ИИ настроен на заполнение ваших каналов
Несмотря на огромный потенциал мультимодального ИИ, неизбежно найдутся компании, которые просто попытаются нажиться на этой шумихе. В результате термин «мультимодальный» станет неизбежным во всех ваших социальных сетях и точках взаимодействия в Интернете. Будь то конечные пользователи или предприятия, никто пока не может понять, как будет развиваться эта революция ИИ. Все, что мы можем сделать, это оставаться в курсе событий и держаться подальше от легкомысленных реализаций этой новой технологии.
Реальное влияние мультимодального ИИ будет зависеть от разработчиков, которые действительно понимают потребности и поведение клиентов и чьи приложения используют эту технологию для создания точных решений для их удовлетворения.