
Аурих Лоусон / Getty Images
Умножение матриц лежит в основе многих прорывов в области машинного обучения, и теперь оно стало быстрее — в два раза. На прошлой неделе DeepMind объявила, что открыла более эффективный способ выполнения матричного умножения, побив рекорд 50-летней давности. На этой неделе два австрийских исследователя из Университета имени Иоганна Кеплера в Линце заявили, что они побили новый рекорд на один шаг.
Умножение матриц, которое включает в себя умножение двух прямоугольных массивов чисел, часто лежит в основе распознавания речи, распознавания изображений, обработки изображений смартфонов, сжатия и создания компьютерной графики. Графические процессоры (GPU) особенно хорошо выполняют матричное умножение из-за их массово-параллельной природы. Они могут разделить большую матричную математическую задачу на множество частей и одновременно атаковать ее части с помощью специального алгоритма.
В 1969 году немецкий математик Фолькер Штрассен открыл лучший из предыдущих алгоритм умножения матриц 4×4, который сокращает количество шагов, необходимых для выполнения вычисления матрицы. Например, умножение двух матриц 4 × 4 вместе с использованием традиционного школьного метода потребует 64 умножения, в то время как алгоритм Штрассена может выполнить то же самое за 49 умножений.

Глубокий разум
Используя нейронную сеть под названием AlphaTensor, DeepMind открыла способ уменьшить это число до 47 умножений, и на прошлой неделе ее исследователи опубликовали статью об этом достижении в журнале Nature.
Переход от 49 шагов к 47 кажется не таким уж большим, но если учесть, сколько триллионов матричных вычислений выполняется в графическом процессоре каждый день, даже постепенные улучшения могут привести к значительному повышению эффективности, позволяя приложениям ИИ работать быстрее на существующих аппаратное обеспечение.
Когда математика — это просто игра, побеждает ИИ

AlphaTensor является потомком AlphaGo (который превзошел чемпиона мира Идти игроков в 2017 году) и AlphaZero, которая занималась шахматами и сёги. DeepMind называет AlphaTensor «первой системой искусственного интеллекта для открытия новых, эффективных и доказуемо правильных алгоритмов для фундаментальных задач, таких как умножение матриц».
Чтобы найти более эффективные матричные математические алгоритмы, DeepMind представил задачу как игру для одного игрока. Компания более подробно описала процесс в своем блоге на прошлой неделе:
В этой игре доска представляет собой трехмерный тензор (массив чисел), отражающий, насколько далек от правильного текущий алгоритм. С помощью набора разрешенных ходов, соответствующих инструкциям алгоритма, игрок пытается изменить тензор и обнулить его элементы. Когда игроку удается это сделать, это приводит к доказуемо правильному алгоритму умножения матриц для любой пары матриц, а его эффективность определяется количеством шагов, предпринятых для обнуления тензора.
Затем DeepMind обучил AlphaTensor, используя обучение с подкреплением, играть в эту вымышленную математическую игру — подобно тому, как AlphaGo научилась играть. Идти— и со временем он постепенно улучшался. В конце концов, он заново открыл работы Штрассена и других математиков-людей, а затем, по словам DeepMind, превзошел их.
В более сложном примере AlphaTensor обнаружил новый способ выполнения умножения матриц 5×5 за 96 шагов (по сравнению с 98 для более старого метода). На этой неделе Мануэль Кауэрс и Якоб Моосбауэр из Johannes Университет Кеплера в Линце, Австрия, опубликовал статью, в которой утверждается, что они сократили этот счет на единицу, до 95 умножений. Неслучайно этот явно рекордный новый алгоритм появился так быстро, потому что он был построен на основе работы DeepMind. В своей статье Кауэрс и Моосбауэр пишут: «Это решение было получено из схемы [DeepMind’s researchers] путем применения последовательности преобразований, ведущих к схеме, из которой можно исключить одно умножение».
Технический прогресс развивается сам по себе, и теперь, когда ИИ ищет новые алгоритмы, вполне возможно, что другие давние математические рекорды вскоре могут быть побиты. Подобно тому, как автоматизированное проектирование (САПР) позволило разработать более сложные и быстрые компьютеры, ИИ может помочь инженерам-людям ускорить собственное развертывание.