Облачное обучение ИИ на этой неделе стало немного более разнообразным после Amazon Web Services (AWS) и Google Cloud объявила об общедоступности своих последних пользовательских ускорителей искусственного интеллекта.
Начиная с Amazon, чипы Trainium облачного провайдера теперь общедоступны на AWS. Инстансы Trn1n на платформе Amazon Trainium, впервые представленные на прошлогодней конференции AWS re:Invent, предназначены для обучения больших моделей машинного обучения, например, используемых для обработки естественного языка и распознавания изображений.
Amazon утверждает, что производительность инстансов в BF16 и 32-разрядных рабочих нагрузках TensorFlow на 40-250% выше, чем у инстансов P4d на базе Nvidia A100, согласно внутренним тестам Amazon. Ускоритель также поддерживает FP32, FP16, UINT8 и настраиваемый тип данных FP8. В последние годы FP8 стал популярным в мире искусственного интеллекта как средство обмена точностью на чистую производительность.
Инстансы доступны в двух размерах: trn1.2xlarge от Amazon объединяет восемь виртуальных ЦП с одним чипом Trainium, 64 ГБ памяти, равномерно распределенной между ЦП и ускорителем, сеть со скоростью 12,5 Гбит/с и 500 ГБ локального хранилища SSD. Между тем, для больших рабочих нагрузок trn1.32xlarge в 16 раз больше и содержит 128 виртуальных ЦП, 16 микросхем Trainium, 1 ТБ комбинированной памяти и пропускную способность сети 800 Гбит/с на экземпляр.
Для обучения крупномасштабной модели несколько экземпляров trn1.32xlarge могут быть кластеризованы с использованием службы хранения Amazon FSx Lustre и неблокирующих коммутаторов верхнего уровня петабитного класса.
Ускоритель использует тот же Neuron SDK, что и ранее анонсированный чип для логического вывода Amazon Inferentia, который поставляется с компилятором, расширениями фреймворка, библиотекой времени выполнения и инструментами разработчика. В совокупности Amazon утверждает, что рабочие нагрузки, написанные в популярных средах машинного обучения, таких как PyTorch и TensorFlow, могут быть адаптированы для работы на Trainium с минимальным рефакторингом.
Инстансы Trn1n доступны на этой неделе в регионах Amazon Восток США и Запад США.
GoogleTPU v4 теперь общедоступен
Google также представила пакет обновлений оборудования на своем мероприятии Cloud Next на этой неделе, включая общедоступность своих тензорных процессоров четвертого поколения (TPU).
Google Виртуальные машины Cloud на базе TPU v4 доступны в конфигурациях от четырех чипов — один модуль TPU — до модуля, включающего до 4096 чипов, подключенных к высокоскоростной фабрике.
Для тех, кто не знаком, GoogleУскорители TPU были специально разработаны для аппаратного ускорения больших моделей машинного обучения, таких как те, которые используются в обработке естественного языка, рекомендательных системах и компьютерном зрении.
На высоком уровне ускоритель, по сути, представляет собой набор больших математических движков с плавающей запятой, называемых MXU, поддерживаемых некоторой памятью с высокой пропускной способностью и несколькими ядрами ЦП, чтобы сделать его программируемым; ядра ЦП получают указание передавать математические операции ИИ рабочей нагрузки в MXU для высокоскоростной обработки. Каждая виртуальная машина TPU состоит из четырех микросхем, каждая с двумя вычислительными ядрами и общим объемом памяти 128 ГБ.
Для полной разборки Googleновейшая архитектура TPU, мы рекомендуем проверить наш дочерний сайт Следующая платформа.
Пользовательские ускорители были разработаны для ускорения Googleсобственные рабочие нагрузки ИИ, но позже были открыты для клиентов на GCP. Как и следовало ожидать, TPU поддерживают множество популярных платформ машинного обучения, включая JAX, PyTorch и TensorFlow. И согласно GoogleTPU v4 более чем в два раза быстрее своего предшественника, а также обеспечивает на 40% более высокую производительность за доллар.
Слайсы TPU v4 Pod теперь доступны в регионе GCP в Оклахоме по цене от 0,97 до 3,22 доллара за чип в час. За Googleсамый маленький экземпляр, который работает до 5 924 долларов в месяц при годовом обязательстве.
Google предлагает заглянуть в процессоры Intel следующего поколения, smartNICs
ЦП Intel Sapphire Rapids и межсетевые процессоры Mount Evans также появились в Google Облако в качестве частного предварительного просмотра на этой неделе.
Избранные покупатели теперь могут опробовать долгожданные процессоры Intel Sapphire Rapids, однако сегодняшнее объявление дает мало намеков на то, что мы можем ожидать от микропроцессоров. Вместо этого бизнес подыгрывал IPU Mount Evans, которые он разработал совместно с Intel.
«Первые в своем роде в любом общедоступном облаке виртуальные машины C3 будут выполнять рабочие нагрузки на процессорах Intel Xeon Scalable 4-го поколения, в то же время они безопасно освобождают программируемую обработку пакетов для IPU со скоростью линии 200 Гбит/с», — Ник МакКаун, руководитель сети Intel. и группа Edge, говорится в заявлении.
Анонсированный на Дне архитектуры Intel в прошлом году, Mount Evans — теперь переименованный в E2000 — является первым специализированным процессором IPU от Intel. IPU – это блок обработки инфраструктуры, по сути, еще один аппаратный ускоритель для сетевых задач и задач хранения.
Чип класса smartNIC будет использоваться для ускорения Googleрабочих нагрузок облачной инфраструктуры. Одним из первых будет хранилище. Облачный провайдер утверждает, что его инстансы C3 с поддержкой IPU предлагают в 10 раз больше операций ввода-вывода в секунду и в 4 раза большую пропускную способность, чем его исходящие инстансы C2, при использовании недавно анонсированного сервиса Hyperdisk.
IPU, блоки обработки данных и SmartNIC вряд ли можно назвать новым явлением в мире облачных вычислений. Amazon, Microsoft Azure и Alibaba Cloud также используют SmartNIC для разгрузки инфраструктурных задач, таких как сеть, хранилище и безопасность, с хоста, высвобождая циклы ЦП для использования рабочими нагрузками арендатора в процессе.
Intel Sapphire Rapids все еще застрял в облаке
Несмотря на то, что экземпляры C3 дразнят как «первую виртуальную машину в общедоступном облаке» на базе Sapphire Rapids, слово «общедоступный», вероятно, здесь не подходит. GoogleЭкземпляры C3 остаются ограниченными для выбора клиентов по заявке, предположительно под строгим соглашением о неразглашении.
На этой неделе Intel еще не объявила дату запуска своего семейства процессоров Sapphire Rapids, которое уже отстает от графика более чем на год. Тем не менее, с запуском процессоров AMD Epyc четвертого поколения, запланированным на эту осень, Intel, похоже, более чем когда-либо стремится передать свои процессоры для центров обработки данных следующего поколения в руки некоторых клиентов — по крайней мере, виртуально.
Google является лишь последним партнером Intel, предоставившим клиентам ресурсы на базе Sapphire Rapids в той или иной степени. Пока Google предлагает облачные виртуальные машины, Supermicro и Intel предлагают удаленный доступ к «голым» системам, чтобы предоставить клиентам возможность изучить новые возможности, предоставляемые чипами.
Intel начала поставки процессоров Xeon Scalable четвертого поколения на базе Sapphire-Rapids некоторым OEM-производителям, партнерам по облачным вычислениям и государственным учреждениям. Однако неясно, сколько чипов x86-титану удалось передать покупателям. ®