Генеративные модели ИИ можно обучать в огромных кластерах графических процессоров, но Cloudflare утверждает, что очевидное место для их запуска — не только на границе, но и в самой сети.
В среду гигант доставки анонсировал набор услуг искусственного интеллекта, направленных на упрощение развертывания и запуска моделей большого языка (LLM) и других алгоритмов машинного обучения (ML), а также достижение минимально возможной задержки.
На самом деле, минимально возможная задержка может быть достигнута за счет выполнения рабочей нагрузки вывода на устройстве пользователя. Intel уделила этому много внимания, рекламируя рост поколения ПК с искусственным интеллектом на прошлой неделе на конференции Intel Innovation. Но хотя в некоторых случаях это может иметь смысл, Cloudflare утверждает, что локальные устройства еще недостаточно мощны.
«Это превращает сеть в златовласку логического вывода. Не слишком далеко, с достаточной вычислительной мощностью — в самый раз», — пишет biz.
Бессерверная технология для графических процессоров
Пакет AI включает в себя три основных сервиса. Первым из них является расширение бессерверной платформы Workers для поддержки рабочих нагрузок с ускорением на графическом процессоре. Сервис, получивший название Workers AI, предназначен для оптимизации процесса развертывания предварительно обученных моделей.
«Никаких знаний в области машинного обучения, никаких поисков графических процессоров. Просто выберите одну из предоставленных моделей и приступайте», — утверждает Cloudflare.
Нам сказали, что платформа работает на графических процессорах Nvidia, хотя Cloudflare не сообщает нам, какие именно. «Технология, созданная Cloudflare, может разделить задачу вывода между несколькими различными графическими процессорами, потому что мы заботимся о планировании и системе и решаем, какой чип или чипы наиболее целесообразны для ее выполнения», — говорится в сообщении. Регистр в заявлении.
В целях простоты платформа не поддерживает — по крайней мере, изначально — модели, поставляемые заказчиком. Нам сообщили, что компания планирует реализовать эту функцию в будущем, но на данный момент она ограничена шестью предварительно обученными моделями, которые включают в себя:
- Meta’s Llama 2 7B Int8 для генерации текста
- Мета М2м100-1.2 для перевода
- OpenAI Whisper для распознавания речи
- Distilbert-sst-2-int8 от Hugging Face для классификации текста
- Microsoft Resnet-50 для классификации изображений
- bge-base-en-v1.5 от Baai для встраивания
Однако Cloudflare заявляет, что работает над расширением этого списка в ближайшем будущем. Как и многие надежды на ИИ, он обратился к Hugging Face за помощью в оптимизации дополнительных моделей для сервиса.
Неясно, существует ли ограничение на размер моделей, которые может поддерживать платформа, но первоначальный список дает некоторые подсказки. Cloudflare делает доступным Llama 2 LLM Meta с семью миллиардами параметров, работающий на Int8, что потребует около 7 ГБ памяти графического процессора. Компания также отмечает, что «если вы хотите запускать версии моделей со сотнями миллиардов параметров, централизованное облако лучше подойдет для вашей рабочей нагрузки».
После запуска Cloudflare клиенты могут интегрировать сервис в свои приложения с помощью REST API или привязав его к интерфейсу своего веб-сайта Pages.
Собираем все это вместе
Поскольку Workers AI поддерживает только логические выводы на предварительно обученных моделях, Cloudflare заявляет, что разработала службу векторной базы данных под названием Vectorize, чтобы моделям ML было проще передавать данные о клиентах пользователям.
Например, в случае чат-бота клиент может загрузить свой каталог продукции в базу данных векторов, из которой модель преобразует его во встроенный актив.
Идея, по-видимому, заключается в том, что, хотя модель Llama 2, предлагаемая Cloudflare, может не обладать конкретными знаниями о данных клиента, чат-бот все равно может предоставлять соответствующую информацию, подключаясь к службе базы данных. По мнению Cloudflare, этот подход делает вывод более доступным, быстрым и менее ресурсоемким, поскольку он отделяет данные о клиентах от самой модели.
Помимо Workers AI и Vectorize, пакет искусственного интеллекта Cloudflare также включает платформу для мониторинга, оптимизации и управления рабочими нагрузками вывода в любом масштабе.
Служба, получившая название AI Gateway, применяет несколько функций, обычно связанных с сетями доставки контента и веб-прокси, такими как кэширование и ограничение скорости, для вывода ИИ, чтобы помочь клиентам контролировать расходы.
«Кэшируя часто используемые ответы ИИ, он уменьшает задержку и повышает надежность системы, а ограничение скорости обеспечивает эффективное распределение ресурсов, смягчая проблемы, связанные с резким ростом затрат на ИИ», — объясняет компания в сообщении в блоге.
Цены и доступность
Cloudflare отмечает, что сервис все еще находится на ранних стадиях развертывания, и на сегодняшний день подключено семь сайтов. Тем не менее, компания внедряет графические процессоры, чтобы довести сервис до 100 точек присутствия к концу года и «почти везде» к концу 2024 года.
В результате компания пока не рекомендует развертывать производственные приложения на Workers AI, называя это «ранней бета-версией».
«То, что мы выпустили сегодня, — это всего лишь небольшой предварительный просмотр, чтобы дать вам представление о том, что будет дальше», — говорится в сообщении в блоге.
Как обычно, Cloudflare заявляет, что не будет выставлять счета за услугу в первый день. При этом компания рассчитывает взимать около цента за каждую тысячу «регулярных сокращающихся нейронов» и 0,125 доллара за каждую тысячу «быстро сокращающихся нейронов». Разница между ними заключается в том, что последний отдает приоритет близости к конечному пользователю, в то время как менее дорогой из двух работает везде, где Cloudflare имеет избыточную мощность.
Нейроны — это способ измерения производительности ИИ, пояснили в компании, добавив, что тысячи нейронов достаточно для примерно 130 ответов LLM, 830 классификаций изображений или 1250 вложений ®.