Мы внимательно следим за нейроморфными усилиями Intel с тех пор, как в начале 2018 года она выпустила свой первый выделенный 14-нм кремний для нейроморфных вычислений под названием Loihi. В интервью с директором лаборатории Intel доктором Ричардом Улигом в марте 2021 года я спросил о развитии оборудования и о том, когда мы можем увидеть второе поколение. Сегодня тот день, и группа анонсирует Loihi 2, существенное обновление по сравнению с первым поколением, которое устраняет многие низко висящие плоды первого дизайна. Что, возможно, не менее интересно, так это используемый технологический узел: Intel сообщает, что Loihi 2 строится сегодня на кремнии с использованием предварительной версии первого технологического узла Intel EUV, Intel 4.
Нейроморфные вычисления для Intel
Создавая архитектуру, которая по своей сути моделируется как мозг, идея состоит в том, что наличие миллионов нейронов и синапсов приведет к вычислительным задачам с уникальными преимуществами мощности / производительности в конкретных задачах, для которых предназначен мозг. Для Intel это долгосрочный потенциальный коммерческий продукт, однако задача команды заключалась в разработке как технологии, так и программного обеспечения для обнаружения и ускорения задач, подходящих для нейронных вычислений.
Нейроморфная лаборатория в Intel была фактически подтверждена приобретением Fulcrum Microsystems в 2011 году. В то время команда Fulcrum представляла собой группу асинхронных вычислений, работавшую над сетевыми коммутаторами. Эта технология была передана сетевой группе внутри Intel, а исследовательское подразделение обратило свое внимание на другие применения асинхронных вычислений и остановилось на нейроморфном.
В то время исследования такого рода нейроморфной вычислительной архитектуры для реальных рабочих нагрузок только зарождались – в то время как эта область существовала с конца 1980-х годов, специализированное оборудование, созданное для исследований, действительно не существовало до начала 2010-х годов. Human Brain Project, 10-летний исследовательский проект, финансируемый Европейским союзом для изучения этой области, был основан только в 2013 году, а в 2019 году появилась система SpiNNaker с миллионом чипов, миллиардом нейронов на 100 кВт. активной мощности.
Для сравнения: первое поколение Intel Loihi поддерживает 131000 нейронов на 60 мм.2 чип, и 768 чипов могут быть объединены в единую систему Pohoiki Springs со 100 миллионами нейронов всего за 300 Вт. В собственном маркетинге Intel они описали это как эквивалент хомяка. В новом чипе Loihi 2 на высоком уровне используется 31 мм2 на чип для миллиона нейронов, эффективно увеличивая плотность в 15 раз, однако развитие выходит за рамки простых чисел.
Loihi 2
Чип Loihi 2 на высоком уровне может выглядеть примерно так: 128 нейроморфных ядер, но теперь каждое ядро имеет в 8 раз больше нейронов и синапсов. Каждое из этих 128 ядер имеет 192 КБ гибкой памяти, по сравнению с предыдущим случаем, когда она фиксировалась на каждое ядро во время выполнения, и каждому нейрону можно выделить до 4096 состояний в зависимости от модели, тогда как предыдущий предел был только 24. Модель нейрона. теперь также может быть полностью программируемым, как ПЛИС, что обеспечивает большую гибкость.
Традиционно нейроны и сети с шипами доставляют данные в виде двоичного события, что и сделал Loihi v1. С помощью Loihi 2 эти события можно оценивать с помощью 32-разрядной полезной нагрузки, что обеспечивает большую гибкость для вычислений на кристалле. Эти события теперь можно отслеживать в режиме реального времени с помощью новых функций разработки / отладки на кристалле, а не паузы / чтения / воспроизведения. В сочетании это также позволяет лучше контролировать динамическое изменение вычислительных рабочих нагрузок, таких как разветвленное сжатие, масштабирование веса, свертки и широковещательные рассылки.
Возможно, одно из самых больших улучшений – возможность подключения. Первое поколение использовало специальный асинхронный протокол для создания большой 2D-сети нейронов, в то время как Loihi 2 можно было настроить для использования различных протоколов в зависимости от необходимости, но также и в 3D-сети. Нам сказали, что Loihi 2 – это не просто один чип, это будет семейство чипов с одинаковой архитектурой нейронов, но с множеством различных вариантов подключения, основанных на конкретных случаях использования. Это можно использовать вместе со встроенными ускорителями сжатия сообщений, чтобы получить эффективное 10-кратное увеличение пропускной способности от кристалла к кристаллу.
Это также распространяется на внешнее подключение Loihi к более традиционным вычислениям, которые ранее были опосредованы FPGA – теперь Loihi 2 поддерживает 10G Ethernet, GPIO и SPI. Это должно упростить интеграцию без необходимости в настраиваемых системах, таких как создание дезагрегированных вычислительных кластеров Loihi 2.
Построен на Intel 4
Мы были удивлены, узнав, что Loihi 2 построен на предварительной версии процесса Intel 4. Нам еще далеко до того, чтобы Loihi 2 стала частью доходов Intel, и команда Neuromorphic знает это, но оказывается, что этот чип, возможно, является идеальным кандидатом для помощи в создании нового процесса.
Размер 31 мм2 означает, что даже если выход должен улучшиться, одна пластина может предложить больше рабочих чипов, чем тестирование с большим размером кристалла. По мере того, как команда проводит тестирование напряжения / частоты / функциональности после создания кристалла, они могут быстрее вернуться к команде разработчиков технологий Intel. Мы подтвердили, что в лаборатории есть настоящий кремний, и фактически оборудование будет доступно сегодня через Intel DevCloud, прямо на металл, без какой-либо эмуляции.
Обычно с новыми технологическими узлами вам нужен заказчик с кремниевым кристаллом небольшого размера, который поможет преодолеть потенциальные препятствия на пути к полномасштабному запуску процесса и производству. Конкуренты-литейщики Intel обычно делают это с покупателями, у которых есть чипы размером со смартфон, и преимущества для покупателя обычно означают, прежде всего, оборудование или, возможно, некоторую начальную скидку (хотя, возможно, не в сегодняшних условиях). Intel ранее боролась на этом фронте, поскольку у нее есть только собственный кремний для использования в качестве тестовой машины.
Команда нейроморфистов сказала, что это действительно хорошо, учитывая, что нейроморфное оборудование требует высокой плотности и низкой статической мощности, обеспечиваемых передовыми технологическими узлами. 128-ядерный дизайн также означает, что у него есть единообразно повторяющийся блок, что позволяет команде процессов следить за регулярностью и согласованностью производства. Кроме того, учитывая, что Loihi все еще остается исследовательским проектом, нет серьезных надежд на то, что вывести этот продукт на рынок в определенное время, что, возможно, может понадобиться крупному покупателю.
Означает ли это, что Intel 4 готов к производству? Не совсем, но это указывает на прогресс. Некоторые из перечисленных тестов Loihi 2 имели оговорку «ожидаемые с учетом смоделированных аппаратных результатов», хотя некоторые другие были выполнены на реальном кремнии, и компания заявляет, что у него есть настоящий кремний для развертывания в облаке сегодня. Intel 4 – это первый технологический узел Intel для литографии в крайнем ультрафиолетовом (EUV) диапазоне, и Intel будет последним крупным производителем полупродуктов, инициировавшим процесс EUV для производства. Но нам еще далеко – на мероприятии Intel Accelerated ожидается, что производство EUV и Intel 4 не вырастет до второй половины 2022 года.
В заключение, из объявления Intel мы можем посмотреть на плотность транзисторов. На 2,3 миллиарда транзисторов в 31 мм2, что даст плотность 71,2 миллиона на мм2, что составляет лишь треть от того, что мы ожидаем. По оценкам, основанным на предыдущих объявлениях Intel, Intel 4 будет стоить около 200 MTr / мм.2. Так почему же Loihi 2 так низко по сравнению с этим числом?
Во-первых, возможно, это нейроморфный чип, а не традиционный логический дизайн. Ядро имеет ~ 25 МБ SRAM вместе со всей логикой, что для 31 мм2 микросхема может быть хорошей частью площади кристалла. Кроме того, основная идея Intel в отношении нейроморфных чипов – это прежде всего функциональность, на втором месте производительность и третья мощность. Поэтому правильная работа важнее, чем заставить работать быстро, поэтому не всегда существует явная потребность в максимальной плотности. Также есть тот факт, что это все еще микросхема разработки, которая позволяет Intel усовершенствовать свой процесс EUV и тестировать на точность литографии, не беспокоясь о дефектах, вызванных плотными библиотеками транзисторов. Я уверен, что еще впереди.
Чтобы добавить последний пункт, в нашем брифинге предполагалось, что нейроморфный IP-адрес потенциально может быть доступен через IP-предложения Intel Foundry Service в будущем.
Новый программный фреймворк Lava
Независимо от возможностей обработки, одним из основных строительных блоков нейроморфной системы является тип вычислений и, возможно, то, насколько сложно написать программное обеспечение для использования преимуществ такой архитектуры. В беседе с Майком Дэвисом из Intel, директором нейроморфной лаборатории Intel, мы лучше всего описали, что современные вычисления сродни архитектуре опроса – каждый цикл принимает данные и обрабатывает их. Напротив, нейроморфные вычисления – это архитектура, основанная на прерываниях – она действует, когда данные готовы. Нейроморфные вычисления в большей степени зависят от временной области, чем современные вычисления, поэтому как концепция вычислений, так и приложения, с которыми они могут работать, почти ортогональны традиционным вычислительным методам. Например, хотя машинное обучение может применяться к нейроморфным вычислениям в форме нейронных сетей Spiking (SNN), традиционные библиотеки PyTorch и TensorFlow не созданы для поддержки SNN.
Сегодня в рамках анонса Intel запускает новую базовую программную среду для нейроморфного сообщества под названием Lava. Это среда с открытым исходным кодом, не находящаяся под контролем Intel, а принадлежащая сообществу. Intel выдвинула ряд своих ранних инструментов как часть фреймворка, и идея состоит в том, что со временем может быть разработан полный программный стек для всех, кто участвует в нейроморфных вычислениях, независимо от оборудования (ЦП, ГП, нейроморфный чип). . Lava спроектирована как модульная, компонуемая, расширяемая, иерархическая и с открытым исходным кодом. Это включает в себя низкоуровневый интерфейс для отображения нейронных сетей на нейроморфное оборудование, асинхронную передачу сообщений на основе каналов, а также все библиотеки и функции, доступные через Python. Программное обеспечение будет доступно для бесплатного использования под BSD-3 и LGPL-2.1 на GitHub.
Начальные системы
Первой версией Loihi 2, развернутой в облачных службах Intel, является Oheo Gulch, которая выглядит как карта расширения PCIe, использующая FPGA для управления большим количеством операций ввода-вывода, а также при необходимости соединитель объединительной платы. 31 мм2 Чип – это BGA, и здесь мы видим один из внутренних разъемов Intel для крепления чипов BGA к плате разработки.
В будущем Intel выпустит 4-дюймовую версию под названием Kapoho Point с восемью чипами на борту, предназначенную для укладки и интеграции в более крупную машину.
Имея такой маленький чип, я задаюсь вопросом, не стоит ли создавать его с контроллером USB на кремнии или иметь интерфейс USB-to-Ethernet и предлагать оборудование на USB-накопителях, сродни тому, что раньше распространял Intel Movidius. . Мы спросили Intel о распространении использования Loihi 2 на более широкую аудиторию, не ориентированную на исследования / некоммерческую деятельность, чтобы возиться и готовить дома, однако, поскольку сейчас это все еще проект Intel Labs, одним из ключевых элементов для команды является целенаправленное сотрудничество с партнерами для продвижения сегмента вперед. Поэтому нам придется подождать, по крайней мере, еще одно поколение или больше, чтобы увидеть, появятся ли какие-либо будущие системы Loihi на Amazon.
Loihi 2 должен быть доступен партнерам по исследованиям для использования с сегодняшнего дня как часть Intel DevCloud. Локальные развертывания для исследований / совместной работы ожидаются в течение следующих 12-24 месяцев.