Создание инфраструктуры генеративного искусственного интеллекта предоставило стартапам, занимающимся производством чипов, нишу аппаратного обеспечения, которую еще не выбрали более крупные игроки, а бизнес в сфере оперативной памяти d-Matrix только что получил финансирование в размере 110 миллионов долларов США в рамках серии B, чтобы сделать свой шаг.
Деньги d-Matrix поступили от инвесторов, включая Microsoft и сингапурский суверенный фонд благосостояния Temasek.
Основанный в 2019 году производитель микросхем из Санта-Клары разработал новую платформу вычислений в памяти для поддержки рабочих нагрузок вывода. Это отличает его от конкурентов, которые сосредоточились на обучении моделей ИИ — теме, которая привлекла много внимания, поскольку генеративный ИИ и модели больших языков (LLM), такие как GPT-4, Midjourney или Llama 2, попадают в заголовки газет.
Обучение часто включает в себя обработку десятков или даже сотен миллиардов параметров, что требует использования огромных банков дорогих высокопроизводительных графических процессоров. И в рамках подготовки к новому мировому порядку ИИ такие титаны, как Microsoft, Meta, Googleи другие скупают десятки тысяч этих ускорителей.
Но обучение моделей — это только часть работы. Инференс – процесс использования искусственного интеллекта в чат-боте, генерации изображений или какой-либо другой рабочей нагрузке машинного обучения – также выигрывает от наличия специального оборудования.
d-Matrix считает, что у нее есть шанс конкурировать с такими гигантами графических процессоров, как Nvidia, с помощью специализированного набора для вывода.
Вычисляйте в море SRAM
d-Matrix разработала серию вычислительных систем в памяти, предназначенных для облегчения некоторых ограничений пропускной способности и задержек, связанных с выводами искусственного интеллекта.
Последний чип стартапа, который ляжет в основу ускорителя Corsair где-то в следующем году, называется Jayhawk II. Он оснащен 256 вычислительными механизмами на каждый чиплет, интегрированными непосредственно в большой пул общей статической памяти с произвольным доступом (SRAM). Для справки: ваш типичный процессор имеет несколько уровней кэша SRAM, некоторые из которых являются общими, а некоторые привязаны к определенному ядру.
В недавнем интервью генеральный директор d-Matrix Сид Шет объяснил, что его команде удалось объединить кэш и вычислить в единую конструкцию. «Наша вычислительная машина — это кэш. Каждый из них может хранить веса и выполнять вычисления», — сказал он.
В результате получается чип с чрезвычайно высокой пропускной способностью памяти (даже по сравнению с памятью с высокой пропускной способностью (HBM)), но при этом он дешевле, утверждают производители чипов. Обратной стороной является то, что SRAM может хранить только часть данных, хранящихся в HBM. В то время как один модуль HBM3 может иметь максимальную емкость 16 ГБ или 24 ГБ, каждый из чипсетов Jayhawk-2 от d-Matrix содержит всего 256 МБ общей SRAM.
Поэтому, по словам Шета, первый коммерческий продукт компании будет состоять из восьми чиплетов, соединенных через высокоскоростную структуру, что в общей сложности будет иметь 2 ГБ SRAM. Он утверждает, что карта мощностью 350 Вт должна обеспечивать производительность около 2000 терафлопс производительности FP8 и до 9600 TOPs производительности Int4 или блокировать математические вычисления с плавающей запятой.
Насколько мы понимаем, это только для моделей, которые могут поместиться в SRAM карты.
Для более крупных моделей, поддерживающих до 40 миллиардов параметров, каждая карта оснащена 256 ГБ памяти LPDDR, что обеспечивает пропускную способность 400 ГБ/с для обработки любого переполнения — хотя Шет признает, что это влечет за собой снижение производительности. Вместо этого, по его словам, первые клиенты, опробовавшие его чипы, распределили свои модели по 16 картам или 32 ГБ SRAM.
За это тоже приходится платить, но Шет утверждает, что производительность по-прежнему предсказуема — до тех пор, пока вы остаетесь в пределах одного узла.
ИИ не является чем-то универсальным
Из-за этого ограничения d-Matrix нацелилась на нижний сегмент рынка искусственного интеллекта для центров обработки данных.
«На самом деле мы не сосредоточены на 100 с лишним миллиардах, 200 с лишним миллиардах [parameter models] где люди хотят выполнять множество общих задач с помощью чрезвычайно больших языковых моделей. У Nvidia есть отличное решение для этой проблемы», — признал Шет. «Мы думаем… большая часть потребителей сосредоточена в этих 3–60 миллиардах пользователей. [parameter] ведро.”
Карл Фройнд, аналитик Cambrian AI, во многом согласен. «Большинство предприятий не будут развертывать модели с триллионом параметров. Они могут начать с модели с триллионом параметров, но затем они будут использовать точную настройку, чтобы сфокусировать эту модель на данных компании», — предсказал он в интервью изданию Регистр. «Эти модели будут намного меньше; они будут… 4–20 миллиардов параметров».
И для моделей такого размера Nvidia H100 не обязательно является самым экономичным вариантом, когда дело касается вывода ИИ. Мы видели, что карты PCIe продавались на eBay по цене до 40 000 долларов.
По его словам, большая часть затрат, связанных с эксплуатацией этих моделей, сводится к использованию быстрой памяти с высокой пропускной способностью. Для сравнения, SRAM, используемая в ускорителях d-Matrix, быстрее и дешевле, но ее емкость ограничена.
Снижение затрат, похоже, уже привлекло внимание M12, венчурного фонда Microsoft. «Мы вступаем в фазу производства, когда вывод LLM TCO становится решающим фактором в том, сколько, где и когда предприятия используют передовой искусственный интеллект в своих услугах и приложениях», — пояснил в своем заявлении Майкл Стюард из M12.
«D-Matrix следует плану, который позволит получить лучшую в отрасли совокупную стоимость владения для различных потенциальных сценариев обслуживания моделей, используя гибкую, отказоустойчивую архитектуру чиплетов, основанную на подходе, ориентированном на память».
Узкое окно возможностей
Но хотя ускоритель искусственного интеллекта кремниевого выскочки может иметь смысл для небольших вузов LLM, Фрейнд отмечает, что у него довольно короткий период возможностей, чтобы оставить свой след. «Нужно предположить, что к этому времени в следующем году у Nvidia что-то появится на рынке».
Можно утверждать, что у Nvidia уже есть карта, предназначенная для меньших моделей: недавно анонсированная L40S. Карта мощностью 350 Вт достигает максимальной производительности FP8 1466 FLOPS и заменяет HBM на 48 ГБ более дешевой, но все же производительной GDDR6. Тем не менее, Фройнд убежден, что Nvidia, скорее всего, вскоре получит более конкурентоспособную платформу для вывода ИИ.
Тем временем несколько поставщиков облачных услуг продвигаются вперед с созданием специализированных микросхем, настроенных на логический вывод. У Amazon есть чипы Inferentia и Google недавно продемонстрировала свой тензорный процессор пятого поколения.
Сообщается, что Microsoft также работает над собственными чипами для центров обработки данных и, как мы слышали, нанимает инженеров-электриков, чтобы возглавить проект. Тем не менее, известно, что все три крупных облачных провайдера хеджируют свои ставки на специализированные полупроводниковые решения от коммерческих предложений. ®