Разреженные модели и дешевая SRAM для языковых моделей

    0
    14


    Какими бы убедительными ни были ведущие крупномасштабные языковые модели, факт остается фактом: только самые крупные компании имеют ресурсы для фактического развертывания и обучения их в значимом масштабе.

    Для предприятий, стремящихся использовать ИИ для получения конкурентного преимущества, лучше подойдет более дешевая, урезанная альтернатива, особенно если ее можно настроить для определенных отраслей или областей.

    Именно здесь появляется группа стартапов в области искусственного интеллекта, которые надеются занять свою нишу: путем создания разреженных специализированных моделей, которые, возможно, не такие мощные, как GPT-3, но достаточно хороши для корпоративных сценариев использования и работают на оборудовании, которое отказывается от дорогой памяти с высокой пропускной способностью. (HBM) для товарной памяти DDR.

    Одним из таких примеров является немецкий ИИ-стартап Aleph Alpha. Модель естественного языка Luminous, основанная в 2019 году в Гейдельберге, Германия, может похвастаться многими из тех же захватывающих заголовков функций, что и GPT-3 OpenAI: копирайтинг, классификация, обобщение и перевод, и это лишь некоторые из них.

    Стартап модели объединился с Graphcore для изучения и разработки моделей разреженного языка на оборудовании британского производителя микросхем.

    «МИС Graphcore предоставляют возможность оценить передовые технологические подходы, такие как условная разреженность», — заявил в своем заявлении генеральный директор Aleph Alpha Йонас Андрулиус. «Эти архитектуры, несомненно, будут играть роль в будущих исследованиях Aleph Alpha».

    Graphcore делает большую ставку на разреженность

    Условно-разреженные модели — иногда называемые смесью экспертов или маршрутизируемыми моделями — обрабатывают данные только в соответствии с применимыми параметрами, что может значительно сократить вычислительные ресурсы, необходимые для их запуска.

    Например, если языковая модель обучалась на всех языках в Интернете, а затем задается вопрос на русском языке, нет смысла прогонять эти данные по всей модели, только параметры, относящиеся к русскому языку, объяснил технический директор Graphcore Саймон Ноулз в интервью Регистр.

    «Это совершенно очевидно. Так работает ваш мозг, и так должен работать ИИ», — сказал он. «Я говорил это много раз, но если ИИ может делать много вещей, ему не нужно использовать все свои знания, чтобы делать что-то одно».

    Ноулз, чья компания создает ускорители для таких моделей, неудивительно считает, что за ними будущее ИИ. «Я удивлюсь, если к следующему году кто-нибудь начнет строить модели с плотным языком», — добавил он.

    HBM-2 дорогой? Вместо этого кэшируйте в DDR

    Разреженные языковые модели не лишены проблем. Одна из самых неотложных, по словам Ноулза, связана с памятью. HBM, используемый в графических процессорах высокого класса для достижения необходимой пропускной способности и емкости, требуемых этими моделями, дорог и связан с еще более дорогим ускорителем.

    Он объяснил, что это не проблема для моделей с плотным языком, где вам могут понадобиться все эти вычисления и память, но это создает проблему для разреженных моделей, которые отдают предпочтение памяти, а не вычислениям.

    Технология межсоединений, такая как NVLink от Nvidia, может использоваться для объединения памяти между несколькими графическими процессорами, но если модель не требует всех этих вычислений, графические процессоры могут оставаться бездействующими. «Это очень дорогой способ купить память, — сказал Ноулз.

    Акселераторы Graphcore пытаются обойти эту проблему, заимствуя метод, столь же старый, как и сами вычисления: кэширование. Каждый IPU имеет относительно большой кэш-память SRAM — 1 ГБ — для удовлетворения требований к пропускной способности этих моделей, в то время как необработанная емкость достигается за счет больших пулов недорогой памяти DDR4.

    «Чем больше SRAM у вас есть, тем меньшая пропускная способность DRAM вам нужна, и именно это позволяет нам не использовать HBM», — сказал Ноулз.

    Благодаря отделению памяти от ускорителя предприятиям гораздо дешевле (стоимость нескольких стандартных модулей DDR) поддерживать более крупные модели ИИ.

    Помимо поддержки более дешевой памяти, Ноулз утверждает, что IPU компании также имеют архитектурное преимущество перед GPU, по крайней мере, когда речь идет о разреженных моделях.

    Вместо того, чтобы работать с небольшим количеством больших матричных множителей, как в тензорном процессоре, чипы Graphcore имеют большое количество меньших матричных математических блоков, которые могут обращаться к памяти независимо.

    Это обеспечивает большую степень детализации для разреженных моделей, где «вам нужна свобода выбора соответствующих подмножеств, и чем меньшую единицу вы должны получить, тем больше у вас свободы», — пояснил он.

    Вердикт еще не вынесен

    В совокупности, Knowles утверждает, что этот подход позволяет его IPU обучать большие модели AI/ML с сотнями миллиардов или даже триллионов параметров при значительно меньших затратах по сравнению с GPU.

    Однако рынок корпоративного ИИ все еще находится в зачаточном состоянии, и Graphcore сталкивается с жесткой конкуренцией на этом рынке со стороны более крупных и авторитетных конкурентов.

    Таким образом, хотя разработка сверхразреженных и урезанных языковых моделей для ИИ вряд ли прекратится в ближайшее время, еще неизвестно, будут ли это IPU Graphcore или чей-то еще ускоритель, который в конечном итоге будет обеспечивать работу корпоративных рабочих нагрузок ИИ. ®

    Предыдущая статьяОбзор: Mario Strikers: Battle League может стать игрой лета
    Следующая статьяDesta: The Memories Between — новая пошаговая стратегическая игра от Netflix
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.