Google освобождает изящную модель сжатия изображений ML

От

02.12.2022

Новое применение машинного обучения выглядит одновременно умным и удобным, в отличие от более обычных свойств, представляющих угрозу для конфиденциальности, авторских прав или жизни. Но прежде чем вы слишком взволнованы, вы не можете иметь его.

Истинная стоимость приложений ML варьируется. Многие из них можно использовать бесплатно, а это значит, что они где-то ставят под угрозу платный доход кого-то. Распознавание речи лишает работы бедняков в колл-центрах. Генераторы изображений «ИИ» лишают творческих художников их доходов, а генераторы текста «ИИ» угрожают писателям — во всяком случае, в тех немногих профессиях, которые выжили в Интернете, уничтожая печатную журналистику.

Применение машинного обучения к сжатию и распаковке изображений кажется относительно безопасным. Добавление большего количества интеллекта к сжатию изображений казалось вдохновенной идеей, ожидающей своего момента с тех пор, как Майкл Барнсли изобрел фрактальное сжатие изображений в 1987 году.

Новый модель центра внимания делает что-то другое: он использует машинное обучение, чтобы попытаться определить, какие части изображения привлекут внимание человека в первую очередь, чтобы он мог выборочно распаковывать эти регионы в первую очередь.

Сначала загрузите важные биты

Если вы достаточно взрослые, чтобы помнить, как постепенно появляются изображения в формате GIF, строка за строкой, по мере того, как они загружаются через модем с коммутируемым доступом, вы сразу же поймете привлекательность. Но сейчас речь идет больше о мобильных и беспроводных соединениях, скорость которых не только сильно различается, но и непредсказуема.

Читайте также:

Здесь, там и везде

Идея состоит в том, что версия всего изображения в низком разрешении появляется в самом начале, и к тому времени, когда ваша зрительная кора решает, куда направить зрачки, эта область изображения уже становится более резкой. Затем, когда ваше внимание блуждает по картинке, алгоритм угадывает, куда ваш взгляд пойдет дальше, и более подробно заполняет эти фрагменты. После того, как эти части станут достаточно острыми, закрашиваются остальные, относительно скучные участки в последнюю очередь.

Если бы это работало достаточно хорошо, вы, вероятно, даже не заметили бы, что это произошло. Иллюзия состоит в том, что с самого начала появляется идеально четкая версия. Мы рекомендуем поиграть с этой демонстрацией, если у вас есть браузер на базе Chrome и вы включили его экспериментальный рендерер изображений JPEG-XL: перейдите к chrome://flagsищи jxl и включите его.

Алгоритм описан в посте под названием «Открытие исходного кода модели центра внимания» на Googleблог с открытым исходным кодом… и в этом заключается ирония, и именно по этой причине в предыдущем абзаце использовался условный режим. Поскольку эта функция использует новый формат изображения JPEG-XL, который Google сказал, что удалит его из будущих версий Chrome еще в октябре.

Было бы неоправданно и неоправданно цинично с нашей стороны предположить, что, поскольку формат должен быть удален из Chrome 110, именно поэтому Google хочет открыть исходный код технологии, так что мы не будем. ®

Google освобождает изящную модель сжатия изображений ML

Сначала загрузите важные биты

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Пользователи смогут оценить «ускоритель Интернета» Google AMP уже в начале следующего...

Сначала загрузите важные биты

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Пользователи смогут оценить «ускоритель Интернета» Google AMP уже в начале следующего...

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА