Новый ИИ-чип объединяет нейроны с резистивной оперативной памятью

    0
    6


    В недавно опубликованной исследовательской работе описывается чип вычислений в памяти (CIM), который сочетает в себе искусственные нейроны с резистивной оперативной памятью (RRAM), так что веса модели ИИ могут храниться и обрабатываться на одном чипе.

    Чип вычислений в памяти на основе резистивной памяти с произвольным доступом

    Чип вычислений в памяти на основе резистивной памяти с произвольным доступом (щелкните, чтобы увеличить). Изображение: Ван и др.

    Исследователи, стоящие за дизайном, утверждают, что он будет более эффективным для периферийных приложений, поскольку исключает перемещение данных между отдельными вычислительными блоками и блоками памяти.

    Пограничные вычисления и искусственный интеллект в ближайшем будущем ждут стремительного роста, по крайней мере, согласно аналитической компании IDC. Некоторые сценарии объединяют их вместе, потому что периферийные развертывания могут быть ограничены по мощности и подключению, но все же должны анализировать значительные объемы данных и обеспечивать реакцию на события почти в реальном времени, что делает модель ИИ, «живущую» в устройстве, наиболее оптимальным решением. .

    В свете этого группа исследователей разработала чип, который она назвала NeuRRAM, потому что он сочетает искусственные нейроны с RRAM в новой архитектуре. Цель проекта состояла в том, чтобы разработать дизайн, который может одновременно обеспечивать высокую энергоэффективность, а также универсальность для поддержки различных моделей ИИ и точность, сравнимую с запуском той же модели в программном обеспечении.

    Первоначально проект был запущен как часть проекта Фонда естественных наук под названием «Экспедиции в области вычислений». Этот проект собрал группу исследователей из разных учреждений с разным опытом, в том числе из Стэнфорда и Калифорнийского университета в Сан-Франциско, а также исследователей из Университета Цинхуа в Китае, которые являются экспертами в области производства устройств RRAM.

    Энергоэффективность: вывод ИИ на гизмо с батарейным питанием

    По словам Вейера Вана, аспиранта Стэнфордского университета и одного из авторов статьи, опубликованной вчера в журнале Nature, NeuRRAM был разработан как чип ИИ, который значительно повышает энергоэффективность логического вывода ИИ, тем самым позволяя реализовать сложные функции ИИ. непосредственно в периферийных устройствах с батарейным питанием, таких как умные носимые устройства, дроны и промышленные датчики IoT.

    «В современных ИИ-чипах обработка и хранение данных происходят в разных местах — вычислительном блоке и блоке памяти. Частый обмен данными между этими блоками потребляет больше всего энергии и становится узким местом для реализации маломощных ИИ-процессоров для периферийных устройств», — сказал он. сказал.

    Чтобы решить эту проблему, чип NeuRRAM реализует модель «вычислений в памяти», где обработка происходит непосредственно в памяти. Он также использует резистивное ОЗУ (RRAM), тип памяти, который работает так же быстро, как статическое ОЗУ, но является энергонезависимым, что позволяет хранить веса моделей ИИ. Ключевой особенностью ячеек RRAM является то, что нейронные веса могут храниться в ячейках памяти в виде различных уровней проводимости, кодироваться с помощью цифро-аналоговых преобразователей (ЦАП) и подаваться в массив памяти.

    Это не программная симуляция, это аппаратная

    Ранее проводились исследования архитектур CIM, но это первое, демонстрирующее широкий спектр приложений ИИ в аппаратном, а не в программном моделировании, при этом более энергоэффективное и способное точно запускать алгоритмы, чего не было ни в одном из предыдущих исследований. по словам Вана, смогли показать одновременно.

    NeuRRAM состоит из 48 ядер CIM, содержащих в общей сложности 3 миллиона ячеек RRAM. Каждое ядро ​​описывается как передвижная нейросинаптическая матрица (TNSA), состоящая из сетки 256 × 256 ячеек RRAM и 256 цепей искусственных нейронов CMOS, которые реализуют аналого-цифровые преобразователи (ADC) и функции активации.

    Согласно документу, архитектура TNSA была разработана для обеспечения гибкого управления направлением потоков данных, что имеет решающее значение для поддержки разнообразных моделей ИИ с различными схемами потоков данных.

    Например, в сверточных нейронных сетях (CNN), которые часто используются в задачах, связанных со зрением, данные проходят в одном направлении через слои для создания представлений данных на разных уровнях абстракции, в то время как в некоторых других моделях вероятностная выборка выполняется между слоями. пока сеть не сойдется к состоянию высокой вероятности.

    Однако другие конструкции, в которых CIM сочеталась с RRAM, были ограничены работой в одном направлении, как правило, путем жесткого подключения строк и столбцов массива RRAM к выделенным схемам на периферии для управления входными данными и измерения выходных данных, говорится в документе.

    Как это работает

    Секрет реконфигурируемости NeuRRAM заключается в том, что она распределяет нейронные цепи CMOS между ячейками RRAM и соединяет их по длине строк и столбцов.

    Вейер Ван

    Рис: Ван и др.

    Каждая TNSA разбита на несколько корлетов, каждый из которых состоит из 16 × 16 ячеек RRAM и одной нейронной цепи. Корелеты соединены общими битовыми линиями (BL) и линиями слов (WL) в горизонтальном направлении и исходными линиями (SL) в вертикальном направлении.

    Цепь нейрона подключается через переключатели к одному BL и одному SL из 16 каждого из них, которые проходят через корлет, и отвечает за интеграцию входов от всех 256 RRAM, подключенных к одному и тому же BL или SL.

    Каждая нейронная цепь может использовать свои переключатели BL и SL для ввода и вывода. Это означает, что он может получать аналоговое умножение матрицы на вектор (MVM) из ячейки RRAM, поступающей либо от BL, либо от SL через коммутаторы, но также может отправлять преобразованные цифровые результаты в периферийные регистры через те же коммутаторы.

    Такое расположение означает, что различные направления потока данных могут быть реализованы путем настройки того, какой переключатель использовать на этапах ввода и вывода каждой нейронной схемы.

    (Эта архитектура также отчасти напоминает нам об процессоре искусственного интеллекта SambaNova, который реализован в виде сетки вычислительных блоков и блоков памяти, связанных встроенной коммуникационной матрицей, которая управляет потоком данных.)

    Согласно статье, чтобы максимизировать производительность вывода ИИ с использованием 48 ядер CIM в NeuRRAM, можно реализовать различные стратегии сопоставления весов, которые используют как параллелизм моделей, так и параллелизм данных.

    В случае с CNN стратегия может состоять в том, чтобы дублировать веса ранних, наиболее ресурсоемких слоев для нескольких ядер CIM для параллельного вывода. В документе представлено более подробное описание доступных стратегий весового картирования.

    В документе сообщаются результаты аппаратных измерений с использованием чипа для ряда задач ИИ, включая классификацию изображений с использованием наборов данных CIFAR-10 и MNIST. Google распознавание речевых команд и восстановление изображений MNIST, реализованное с помощью различных моделей ИИ.

    Утверждается, что он обеспечивает точность вывода, сравнимую с программными моделями, обученными с использованием 4-битных весов во всех этих тестовых задачах. Например, он достигает 0,98% ошибок при распознавании рукописных цифр MNIST с использованием 7-слойной CNN, 14,34% ошибок при классификации объектов CIFAR-10 с использованием ResNet-20 и 15,34% ошибок при распознавании рукописных цифр. Google распознавание речевых команд с использованием 4-ячеечной LSTM (длинная кратковременная память).

    Также утверждается, что чип NeuRRAM имеет энергоэффективность, которая в два раза выше, чем у более ранних конструкций чипов CIM, использующих RRAM, при различной точности вычислений. Однако потребление энергии в документе не указано в форме, которую можно легко сравнить с коммерческими устройствами на рынке, а рисунок, показанный ниже, иллюстрирует потребление энергии на операцию с различной точностью битов, измеренной в фемтоджоулях (фДж).

    Ван и др.

    нажмите, чтобы увеличить

    Тем не менее, Ван сказал нам, что для типичной задачи определения ключевых слов в реальном времени, которая сегодня выполняется на многих устройствах умного дома (например, приказать умному динамику включить свет), NeuRRAM, по оценкам, потребляет менее 2 микроватт энергии.

    «Это означает, что даже на маленькой батарейке-таблетке он может работать более 10 лет (не считая мощности, потребляемой другими компонентами системы)», — сказал он.

    Согласно документу, чип изготовлен с использованием 130-нм технологии CMOS, и ожидается, что энергоэффективность улучшится с масштабированием технологии, как и в случае с другими полупроводниковыми продуктами.

    До производства еще годы

    Увидим ли мы готовое коммерческое устройство, основанное на этой технологии? Ван говорит, что у него есть большой потенциал для коммерциализации, и он лично рассматривает возможность работы над его производством.

    «Скорее всего, наиболее подходящим начальным вариантом использования будет экстремальная периферия / IoT», — сказал он нам.

    Продукт на базе чипа NeuRRAM можно было бы объединить в систему с центральным процессором, как и с другими ускорителями, но это не обязательно для каждого приложения.

    «В последнее время наблюдается тенденция к тому, что данные с датчиков напрямую передаются в процессоры ИИ, минуя ЦП или дополнительную память», — сказал Ван, но добавил, что в большинстве реальных случаев развертывания такие ускорители ИИ функционируют как сопроцессор. для ЦП, где ЦП управляет другими задачами.

    Чип NeuRRAM предназначен только для работы с логическими выводами, во многом потому, что технология RRAM в ее нынешнем виде не очень подходит для обучения, поскольку процесс обучения требует частых обновлений памяти, а это «очень дорогая операция с RRAM», — сказал Ван.

    «В настоящее время многие коммерческие заводы уже имеют возможность производить устройства RRAM, но в основном для использования во встроенной памяти, а не для вычислений в памяти. Как только процесс RRAM станет более доступным для разработчиков интегральных схем, может появиться продукт NeuRRAM».

    Однако точные сроки, когда это произойдет, трудно предсказать, и Ван сказал, что это может произойти в ближайшие два-три года или намного дольше. ®

    Предыдущая статьяНеофициальная криптовалюта «Манчестер Юнайтед» выросла на 55 000% после Илона
    Следующая статьяСайт моддинга банит пользователя за загрузку анти-ЛГБТ-контента для Marvel’s
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.