Google в среду раскрыла более подробную информацию о своем чипе Tensor Processing Unit четвертого поколения (TPU v4), заявив, что его кремний быстрее и потребляет меньше энергии, чем графический процессор Nvidia A100 Tensor Core.
TPU v4 «в 1,2–1,7 раза быстрее и потребляет в 1,3–1,9 раза меньше энергии, чем Nvidia A100», — говорят исследователи из Google и Калифорнийский университет в Беркли в статье, опубликованной перед июньской презентацией на Международном симпозиуме по компьютерной архитектуре. Наши друзья в Следующая платформа ранее углублялся в архитектуру TPU v4, здесь на основе ранее опубликованного материала о чипах.
После GoogleНа этой неделе Nvidia случайно опубликовала сообщение в блоге, в котором основатель и генеральный директор Дженсен Хуанг отметил, что A100 дебютировал три года назад и что более поздние графические процессоры Nv H100 (Hopper) обеспечивают в 4 раза большую производительность, чем A100, на основе тестов MLPerf 3.0.
GoogleTPU v4 также поступил на вооружение три года назад, в 2020 году, и с тех пор совершенствовался. GoogleАвторы /UC Berkley объясняют, что они решили не сравнивать TPU v4 с более поздним H100 (объявленным в 2022 г.), потому что Google предпочитает писать статьи о технологиях после того, как они были развернуты и использованы для запуска производственных приложений.
«И TPU v4, и A100 развернуты в 2020 году, и оба используют 7-нм технологию», — поясняется в документе. «Новый H100 мощностью 700 Вт был недоступен в AWS, Azure или Google Облако в 2022 году. Соответствующим H100 станет преемником TPU v4, развернутого в те же сроки и с той же технологией (например, в 2023 году и на 4 нм)».
Исследователи говорят, что TPU v4 представляет собой пятую архитектуру компании, ориентированную на предметную область (DSA), настроенную для машинного обучения, и ее третий суперкомпьютер для моделей машинного обучения. Тем не менее, он называется «v4».
ТПУ для вас и вас
Рекламный бизнес представил свой первый TPU еще в 2016 году, до того, как искусственный интеллект был добавлен в каждый продукт и пресс-релиз. Утверждается, что новый TPU v4 превосходит своего предшественника v3 в 2,1 раза и может похвастаться более высокой производительностью на ватт в 2,7 раза.
Существенные инновации в TPU v4 включают введение оптических коммутаторов цепей (OCS) с оптическими каналами передачи данных и интеграцию SparseCores (SC), процессоров потоков данных, которые ускоряют вычисления для моделей, основанных на встраиваниях, таких как рекомендательные системы.
Аппаратное обеспечение соединения OCS позволяет Googleсуперкомпьютер узла 4K TPU для работы с 1000 хостов ЦП, которые время от времени (0,1–1,0 процента времени) недоступны, не вызывая проблем.
«OCS повышает доступность за счет обхода сбоев», — объясняют исследователи, отмечая, что без OCS доступность хоста должна составлять 99,9%. С OCS эффективная пропускная способность («хорошая пропускная способность») в GoogleСуперкомпьютер TPU может быть обеспечен с доступностью хоста около 99,0%.
Исследователи объясняют, что SC — это DSA для встраивания обучения, дебютировавший в TPU v2 и импровизированный в последующих итерациях. Процессоры SC «ускоряют модели, основанные на встраиваниях, в 5–7 раз, но используют только пять процентов площади кристалла и мощности», — говорят они.
Это кажется разумной ценой, учитывая, что зависимые от внедрения рекомендательные модели глубокого обучения (DLRM) составляют четверть Googleрабочие нагрузки. Они используются, отмечают ученые, в Googleреклама, поисковый рейтинг, YouTube и Google Играйте в приложения.
Возьмите 4096 узлов TPU v4, объединенных в суперкомпьютер в центре обработки данных, как Google Облако сделало это, и полученное оборудование требует примерно в 2–6 раз меньше энергии и примерно в 20 раз меньше выбросов углекислого газа, чем конкурирующие DSA, утверждают ученые.
«Сокращение углеродного следа примерно в 20 раз значительно увеличивает шансы на устойчивое использование удивительного потенциала машинного обучения», — в основном Google- заявляют работающие авторы, хотя и не одобряют низинную прибрежную недвижимость как надежное долгосрочное вложение.
Google имеет десятки таких суперкомпьютеров, развернутых для внутреннего и внешнего использования. Так что наслаждайтесь своими рекомендациями на YouTube с чуть меньшим чувством вины за побочный вред климату. Просто не забудьте умножить свой экзистенциальный страх на растущий спрос на приложения машинного обучения. ®