
[ad_1]
В насыщенной презентации, открывающей выставку Computex этого года, генеральный директор AMD д-р Лиза Су уделила много времени теме искусственного интеллекта. И хотя основное внимание было уделено грядущим клиентским продуктам AMD, компания также наслаждается стремительным ростом линейки ускорителей Instinct: модель MI300 продолжает бить прогнозы и рекорды роста продаж квартал за кварталом. Неудивительно, что AMD стремится быстро продвинуться в области ускорителей искусственного интеллекта, чтобы воспользоваться рыночными возможностями на фоне нынешней мании ИИ, а также для того, чтобы оставаться конкурентоспособной среди множества больших и малых чипмейкеров, которые также пытаются заявить о себе в этой области.
В связи с этим, в рамках сегодняшних вечерних анонсов компания AMD представила дорожную карту для линейки продуктов Instinct на краткосрочную и долгосрочную перспективу: новые продукты и новые архитектуры будут разрабатываться для AMD до 2026 года и далее.
Что касается продуктов, то AMD анонсирует новый ускоритель Instinct, MI325X с поддержкой HBM3E. Основанный на том же вычислительном кремнии, что и ускоритель MI300X, MI325X заменяет память HBM3 на более быструю и плотную HBM3E, что позволяет AMD выпускать ускорители с объемом памяти до 288 Гб и пропускной способностью локальной памяти до 6 Тб/сек.
Тем временем, AMD также продемонстрировала свою первую за два года новую архитектуру CDNA/дорожную карту продуктов Instinct, изложив свои планы до 2026 года. В течение следующих двух лет AMD будет двигаться очень быстро, запустив две новые архитектуры CDNA и соответствующие продукты Instinct в 2025 и 2026 годах, соответственно. Серия MI350 на базе CDNA 4 выйдет в 2025 году, а за ней в 2026 году последует еще более амбициозная серия MI400, которая будет основана на архитектуре CDNA “Next”.
AMD Instinct MI325X: максимальный монстр памяти
Начнем с того, что посмотрим на обновленный ускоритель MI325X от AMD. Как и некоторые другие производители ускорителей (например, H200 от NVIDIA), AMD выпускает обновление своего ускорителя MI300X в середине поколения, чтобы воспользоваться преимуществами доступности новой памяти HBM3E. HBM3 является обновлением среднего поколения стандарта HBM и предлагает как более высокую тактовую частоту, так и большую плотность памяти.
Используя 12-Hi стеки, все три основных производителя памяти уже поставляют (или будут поставлять) стеки памяти объемом 36 Гб, что на 50% больше, чем их нынешние топовые стеки HBM3 объемом 24 Гб. Что для 8-стековой серии MI300 позволит увеличить максимальный объем памяти с 192 ГБ до внушительных 288 ГБ на одном ускорителе.
HBM3E также обеспечивает более высокую тактовую частоту памяти. Micron и SK hynix ожидают, что в конечном итоге будут продаваться стеки с тактовой частотой 9,2 Гбит/с на контакт, и Samsung хочет довести скорость до 9,8 Гбит/с на контакт, что более чем на 50% превышает скорость передачи данных 6,4 Гбит/с обычной памяти HBM3. С учетом сказанного, пока неясно, увидим ли мы продукты, использующие память, работающую на таких скоростях, и когда – нам еще предстоит увидеть ускоритель, работающий с HBM3 на скорости 6,4 Гбит/с – но, независимо от этого, HBM3E позволит производителям чипов увеличить столь необходимую пропускную способность памяти.
Ускорители AMD Instinct | ||||||
MI325X | MI300X | MI250X | MI100 | |||
Вычислительные блоки | 304 | 304 | 2 x 110 | 120 | ||
Матричные ядра | 1216 | 1216 | 2 x 440 | 480 | ||
Потоковые процессоры | [19456 | [19456 | 2 x 7040 | 7680 | ||
Буст-часы | 2100 МГц | 2100 МГц | 1700 МГц | 1502 МГц | ||
Вектор FP64 | 81,7 TFLOPS | 81.7 TFLOPS | 47.9 TFLOPS | 11.5 TFLOPS | ||
Вектор FP32 | 163,4 TFLOPS | 163.4 TFLOPS | 47,9 TFLOPS | 23.1 TFLOPS | ||
Матрица FP64 | 163,4 TFLOPS | 163.4 TFLOPS | 95,7 TFLOPS | 11.5 TFLOPS | ||
Матрица FP32 | 163,4 TFLOPS | 163.4 TFLOPS | 95,7 TFLOPS | 46.1 TFLOPS | ||
Матрица FP16 | 1307.4 TFLOPS | 1307.4 TFLOPS | 383 TFLOPS | 184,6 TFLOPS | ||
Матрица INT8 | 2614.9 TOPS | 2614.9 TOPS | 383 TOPS | 184.6 TOPS | ||
Часы памяти | ~5,9 Гбит/с HBM3E | 5,2 Гбит/с HBM3 | 3,2 Гбит/с HBM2E | 2,4 Гбит/с HBM2 | ||
Ширина шины памяти | 8192-бит | 8192-bit | 8192-bit | 4096 бит | ||
Пропускная способность памяти | 6 ТБ/сек | 5.3 ТБ/сек | 3.2 ТБ/сек | 1.23 ТБ/сек | ||
VRAM | 288 ГБ (8×36 ГБ) |
192 ГБ (8×24 ГБ) |
128 ГБ (2x4x16GB) |
32 ГБ (4×8 ГБ) |
||
ECC | Да (полностью) | Да (полностью) | Да (полностью) | Да (полностью) | ||
Ссылки на ткани Infinity | 7 (896 ГБ/сек) |
7 (896 ГБ/сек) |
8 | 3 | ||
TDP | 750W? | 750W | 560W | 300W | ||
GPU | 8x CDNA 3 XCD | 8x CDNA 3 XCD | 2x CDNA 2 GCD | CDNA 1 | ||
Количество транзисторов | 153B | 153B | 2 x 29.1B | 25.6B | ||
Процесс производства | TSMC N5 (XCD) TSMC N6 (IOD) |
TSMC N5 (XCD) TSMC N6 (IOD) |
TSMC N6 | TSMC 7 нм | ||
Архитектура | CDNA 3 | CDNA 3 | CDNA 2 | CDNA (1) | ||
Форм-фактор | OAM | OAM | OAM | PCIe | ||
Дата запуска | Q4’2024 | 12/2023 | 11/2021 | 11/2020 |
Показатели пропускной способности матриц для плотных (не разреженных) операций, если не указано иное
Погружаясь в спецификации MI325X, мы обнаруживаем, что, за исключением замены памяти, он остался неизменным по сравнению с оригинальным MI300X архитектуры CDNA 3. AMD по-прежнему использует здесь ту же конфигурацию 8 XCD + 4 IOD, что обеспечивает чипу 1216 ядер матрицы и максимальную пропускную способность INT8 в 2614 TOPS. Учитывая заявления AMD о пропускной способности, похоже, что тактовая частота не изменилась по сравнению с 2,1 ГГц MI300X, так что это простое SKU для апгрейда памяти.
Примечательно, что даже при переходе на HBM3E компания AMD не сильно увеличивает тактовую частоту памяти. При заявленной пропускной способности памяти в 6 ТБ/с, скорость передачи данных HBM3E составляет около 5,9 Гбит/с на контакт. Конечно, это все еще 13% увеличение пропускной способности памяти (и без дополнительных вычислительных ресурсов, претендующих на эту пропускную способность), но AMD не использует все преимущества, которые может предложить HBM3E. Хотя, поскольку речь идет о модернизации чипа, в основе которого лежит контроллер памяти HBM3, это не слишком удивительно.
Более веская причина использовать HBM3E в данном случае – это объем памяти. При 288 Гб локальной оперативной памяти это обновление выводит MI250X еще дальше вперед по объему памяти на один ускоритель. И, что, по мнению AMD, является решающим фактором, это даст 8-полосной конфигурации 2,3 ТБ оперативной памяти – достаточно для запуска LLM с триллионом параметров на одном серверном узле. Само собой разумеется, что LLM оправдывают свое название, поэтому большая часть гонки ускорителей ИИ заключается в том, сколько моделей может вместить один узел и насколько большим может быть большой кластер.
В остальном MI325X впишется в существующую инфраструктуру AMD MI300X, включая их универсальную базовую плату с 8-сторонним OAM. Компания не указала TDP для новых компонентов (более быстрая память, как правило, сопровождается более высоким энергопотреблением), но поскольку тактовая частота XCD не изменилась, мы не ожидаем больших изменений по сравнению с 750 Вт TDP MI300X.
Начало продаж Instinct MI325X запланировано на 4 квартал этого года. AMD не предлагает никаких прогнозов по продажам прямо сейчас (и это скорее вопрос финансовых аналитиков), но следует отметить, что AMD будет конкурировать с остальными производителями за ценный и ограниченный объем HBM3. Компания Micron уже распродала свои запасы на 2024 год (и большую часть 2025 года), да и другие производители HBM не отстают. Так что не ожидайте, что MI300X куда-то денется, пока HBM3E остается в ограниченном количестве.
Запуск в четвертом квартале также ставит AMD в неравное положение с ускорителем нового поколения B200 Blackwell от NVIDIA, который, как было объявлено на GTC 2024 в апреле, должен был появиться на рынке к концу 2024 года. Время выхода на рынок совершенно нового ускорителя означает, что AMD, скорее всего, опередит NVIDIA – и независимо от сроков, у них будет преимущество в объеме локальной памяти ускорителя – но это означает, что MI325X в конечном итоге придется бороться и с конкурентами нового поколения.
В качестве примечания, нам удалось узнать у AMD о других готовящихся продуктах серии Instinct MI300. В частности, PCIe-версия ускорителя по-прежнему отсутствует. Хотя AMD знает об интересе, они не собираются выпускать PCIe-карту на рынок прямо сейчас – и, если читать между строк, похоже, что они уже продают все, что могут произвести, в виде OAM-модулей. Это означает, что у них нет стимула предлагать более медленные (и потенциально менее прибыльные) PCIe-карты.
Дорожная карта архитектуры AMD CDNA: 3-нм CDNA 4 в 2025 году, CDNA Next в 2026 году
Помимо ближайших планов AMD по выпуску обновленного Instinct MI325X, компания также использует выставку Computex этого года для того, чтобы по-новому взглянуть на свою долгосрочную дорожную карту архитектуры CDNA/Instinct, которая в последний раз обновлялась в 2022 году и действовала только до конца прошлого года (запуск CDNA 3/MI300). Ранее AMD уже подтверждала, что работает над архитектурой CDNA 4, но это первый случай, когда она была представлена в виде дорожной карты и описана в деталях. Между тем, дорожная карта также добавляет еще одну архитектуру CDNA после этой, CDNA “Next” (предположительно CDNA 5), которая будет выпущена в 2026 году.
Архитектура CDNA 4 станет сердцем ускорителей AMD серии MI350, которые должны появиться в 2025 году. С помощью новой архитектуры AMD намерена удержать свое “лидерство в области памяти” (что, как мы предполагаем, означает лидерство в области объема памяти), а также увеличить вычислительную производительность.
Вычислительные чипсеты архитектуры CDNA 4 будут построены по 3-нм техпроцессу. AMD не говорит, на каком именно, но, учитывая их невероятно тесные рабочие отношения с TSMC и необходимость использовать лучшее, что они могут получить в свои руки, было бы невероятно удивительно, если бы это было не что иное, как один из вариантов техпроцесса N3 от TSMC. По сравнению с техпроцессом N5, который использовался для производства XCD CDNA 3, для AMD это будет полным улучшением техпроцесса, поэтому CDNA 4/MI350 будет сопровождаться ожиданиями значительных улучшений в производительности и энергоэффективности. Между тем, AMD ничего не раскрывает о базовых матрицах ввода-вывода (IOD), но можно предположить, что они останутся на следующем узле, возможно, перейдя с N6 на N5/N4.
AMD также планирует расширить использование чиплетов в целом в архитектуре CDNA 4. Хотя остается неясным, что именно это повлечет за собой.
В архитектурном плане AMD сегодня заявляет, что CDNA 4 принесет с собой встроенную поддержку еще более низкоточных форматов данных – FP4 и FP6 – что соответствует аналогичным заявлениям других производителей. Как и в случае с поддержкой INT8/FP8, встроенная поддержка форматов еще более низкой точности позволяет еще больше увеличить пропускную способность вычислений с точки зрения операций в секунду, а также снизить нагрузку на память за счет меньшего размера данных в этих форматах. Выводы LLM по-прежнему ограничены объемом памяти ускорителей ИИ, поэтому экосистема испытывает значительное давление, чтобы снизить потребление памяти при выводах.
Что касается производительности, то AMD заявляет. 35x улучшение в выводах ИИ для MI350 по сравнению с MI300X. Согласно сноскам AMD, это утверждение основано на сравнении теоретического 8-полосного кластера MI350 с существующими 8-полосными кластерами MI300X, используя модель GPT MoE с 1,8 триллионами параметров. Предположительно, AMD использует все преимущества FP4/FP6, а также больший объем памяти. В таком случае это, скорее всего, косвенный тест на емкость памяти/параметров, а не оценка, основанная на чистой пропускной способности FLOPS.
Между тем, вычислительные чипсеты CDNA 4 будут работать в паре с памятью HBM3E, как и MI325X позже в этом году. AMD не объявляет тактовую частоту памяти (хотя она, конечно, будет выше), но она уже сообщила, что ускорители MI350 будут поставляться с памятью объемом до 288 ГБ, что практически гарантирует, что в ускорителях CDNA 4 высшего класса снова будет использоваться 8 стеков памяти.
Читая между строк, можно сказать, что архитектура CDNA 4 будет относительно простым обновлением CDNA 3, которое добавит поддержку FP4/FP6 без существенного изменения базовой вычислительной архитектуры. Решение AMD назвать этот продукт еще одним продуктом серии MI300, а не переходить к MI400, кажется очень продуманным решением для компании, которая в других сегментах продукции (например, потребительском) будет менять номера продуктов по первому требованию.
И наконец, вслед за CDNA 4 в 2025 году появится архитектура AMD CDNA “Next” в 2026 году, которая будет использоваться для питания ускорителей серии MI400. На расстоянии двух лет AMD предлагает меньше деталей. Но компания подчеркивает, что она предложит “значительное” обновление архитектуры по сравнению с CDNA 4. Учитывая это описание, а также полное обновление продуктов серии MI400, похоже, что нам следует ожидать серьезных изменений в архитектуре ядра вычислений. Это было бы особенно примечательным событием, поскольку CDNA 3 (и, предположительно, CDNA 4) может восходить своими ISA-корнями непосредственно к архитектуре GCN 5 (Vega) 2017 года.
В целом, компания AMD публично заявляет о том, что начиная с 2024 года будет ежегодно составлять дорожную карту CDNA, что значительно увеличивает сроки, которые до этого момента составляли 2 года. Этот переход к более быстрому графику выпуска продуктов отражает растущую удачу (и быстрый рост) AMD в индустрии ускорителей. Хотя будет интересно посмотреть, насколько хорошо они смогут поддерживать этот рост, учитывая высокие затраты на разработку новейших чипов. Тем не менее, учитывая, что конкурирующая компания NVIDIA сделала аналогичное заявление всего 24 часами ранее, гонка в индустрии ускорителей явно ускоряется.
[ad_2]