Платформа машинного обучения, обнимая лицо, выпустила приложение для iOS, которое будет иметь смысл окружающего вас мира, как видно из ваших iPhoneкамера. Просто укажите на это на сцену или нажмите на картинку, и он развернет ИИ, чтобы описать его, определить объекты, выполнить перевод или потянуть текстовые детали.
Названный HuggingsNap, приложение использует многомодерный подход к пониманию сцены вокруг вас в качестве ввода, и теперь оно доступно бесплатно в магазине приложений. Он питается от Smolvlm2, открытой модели ИИ, которая может обрабатывать текст, изображение и видео в качестве входных форматов.
Главная цель приложения – позволить людям узнать об объектах и пейзажах вокруг них, включая признание растений и животных. Идея не слишком отличается от визуального интеллекта на iPhone, но Huggingsnap имеет решающее значение по сравнению с соперником Apple.
Пожалуйста, включите JavaScript для просмотра этого контента
Не требует работы интернета
Все, что ему нужно, это iPhone Бегите iOS 18, и все готово. Пользовательский интерфейс Huggingsnap не слишком отличается от того, что вы получаете с визуальным интеллектом. Но здесь есть фундаментальная разница.
Apple полагается на Chatgpt для работы на визуальном интеллекте. Это потому, что в настоящее время Siri не способна действовать как генеративный инструмент искусственного интеллекта, такой как Chatgpt или GoogleБлизнецы, оба из которых имеют свой собственный банк знаний. Вместо этого он разгружает все такие запросы пользователей и запросы в CHATGPT.
Это требует подключения к Интернету, так как CHATGPT не может работать в автономном режиме. Huggingsnap, с другой стороны, работает просто отлично. Более того, автономный подход означает, что ни один пользовательские данные никогда не покидают ваш телефон, что всегда является долгожданным изменением с точки зрения конфиденциальности.
Что вы можете сделать с Huggingsnap?

Huggingsnap оснащен моделью Smolvlm2, разработанной, обнимая лицо. Итак, что может выполнить эта модель, управляемая шоу, стоящим за этим приложением? Ну, много. Помимо ответов на вопросы, основанные на том, что он видит через iPhoneКамера, она также может обрабатывать изображения, выбранные из галереи вашего телефона.
Например, покажите это изображение любого исторического памятника и попросите его дать вам предложения по путешествиям. Он может понять материал, появляющийся на графике, или разобраться с изображением и ответами на картинку счета за электроэнергию на основе деталей, которые он взял из документа.
Он имеет легкую архитектуру и особенно хорошо подходит для применений ИИ на поступлении. На тестах он работает лучше, чем GoogleКонкурирующая модель открытой палигеммы (3B) и втирает плечи с конкурентной моделью Alibaba Qwen AI с возможностями зрения.

Самое большое преимущество заключается в том, что для работы требуется меньше системных ресурсов, что особенно важно в контексте смартфонов. Интересно, что популярный Media Player VLC также использует ту же модель SMOLVLM2 для предоставления описаний видео, позволяя пользователям искать видео с использованием подсказок естественного языка.
Это также может разумно извлечь самые важные моменты выделения из видео. «Разработанный для эффективности, Smolvlm может отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории, основанные на нескольких изображениях или функционировать как модель чистого языка без визуальных вводов», – говорит репозиторий приложения GitHub.