Подсчет экологических издержек искусственного интеллекта • Регистр

    0
    60


    Характерная черта В следующий раз, когда вы попросите Алексу выключить свет в спальне или заставить компьютер написать хитрый код, подумайте о планете. Внутренняя механика, которая делает все это возможным, требует много энергии, и эти системы становятся все более голодными.

    Искусственный интеллект начал набирать обороты в массовых вычислениях чуть более десяти лет назад, когда мы разработали, как заставить графические процессоры обрабатывать базовые вычисления в нужном масштабе. Сейчас есть алгоритм машинного обучения для всего, но пока мир восхищается приложениями, некоторые исследователи обеспокоены экологическими расходами.

    В одной из наиболее часто цитируемых статей по этой теме из Массачусетского университета анализировались затраты на обучение искусственному интеллекту, включая модель обработки естественного языка BERT Google. Выяснилось, что стоимость обучения BERT на графическом процессоре по выбросам углерода была примерно такой же, как и стоимость трансамериканского полета на реактивном самолете.

    Кейт Саенко, доцент кафедры информатики Бостонского университета, обеспокоена тем, что мы недостаточно делаем для того, чтобы сделать ИИ более энергоэффективным. «Общая тенденция в области искусственного интеллекта идет в неправильном направлении с точки зрения энергопотребления», – предупреждает она. «Тренировать новые модели становится все дороже с точки зрения мощности».

    Тенденция экспоненциальная. Исследователи, связанные с OpenAI, писали, что объем вычислений, используемых для обучения средней модели, увеличивается в 10 раз каждый год.

    Почему ИИ так голоден?

    В наши дни большая часть ИИ основана на машинном обучении (ML). При этом используется нейронная сеть, которая представляет собой набор узлов, спроектированных по слоям. Каждый узел имеет соединения с узлами следующего. Каждое из этих соединений имеет оценку, известную как параметр или вес.

    Нейронная сеть принимает входные данные (например, изображение хот-дога) и пропускает их через слои нейронной сети, каждый из которых использует свои параметры для получения выходных данных. Окончательный вывод – это суждение о данных (например, был ли исходный ввод изображением хот-дога или нет?)

    Эти веса не настроены заранее. Вы должны их вычислить. Вы делаете это, показывая сети много изображений хот-догов с этикетками, а не хот-догов. Вы продолжаете тренировать его до тех пор, пока параметры не будут оптимизированы, что означает, что они как можно чаще будут выдавать правильное суждение для каждого фрагмента данных. Чем точнее модель, тем лучше она будет при вынесении суждений о новых данных.

    Вы не просто тренируете модель ИИ один раз. Вы продолжаете делать это, каждый раз настраивая различные аспекты нейронной сети, чтобы получить максимально правильные ответы. Эти аспекты называются гиперпараметрами, и они включают такие переменные, как количество нейронов в каждом слое и количество слоев в каждой сети. Большая часть этой настройки – это метод проб и ошибок, что может означать, что обучение проходит много раз. Перебирать все эти данные уже достаточно дорого, но при этом многократно используется еще больше электронов.

    Причина, по которой модели потребляют больше энергии для обучения, заключается в том, что исследователи вводят в них больше данных, чтобы получить более точные результаты, объясняет Лукас Бевальд. Он является генеральным директором Weights and Biases, компании, которая помогает исследователям ИИ систематизировать данные обучения для всех этих моделей, одновременно контролируя их использование вычислительных ресурсов.

    «Что вызывает тревогу в этом, так это то, что кажется, что на каждый коэффициент 10, увеличивающий масштаб обучения модели, вы получаете лучшую модель», – говорит он.

    Да, но точность модели не увеличивается в 10 раз. Джесси Додж, научный сотрудник Института искусственного интеллекта Аллена и соавтор статьи под названием Green AI, отмечает исследования, указывающие на уменьшение отдачи от предоставления большего количества данных в нейронная сеть.

    Так зачем это делать?

    «Нам предстоит многому научиться», – объясняет он. Алгоритмы машинного обучения могут обучаться на наиболее часто встречающихся данных, но крайние случаи – запутанные примеры, которые возникают редко – труднее оптимизировать.

    Наша система распознавания хот-дога может работать до тех пор, пока не появится какой-нибудь клоун в костюме хот-дога или пока он не увидит изображение фургона в форме хот-дога. Модель языковой обработки могла бы понять 95 процентов того, что говорят люди, но было бы здорово, если бы она могла обрабатывать экзотические слова, которые почти никто не использует? Что еще более важно, ваше автономное транспортное средство должно иметь возможность останавливаться в опасных условиях, которые возникают редко.

    «Обычная вещь, которую мы видим в машинном обучении, – это то, что требуется экспоненциально все больше и больше данных, чтобы попасть в этот длинный хвост», – говорит Додж.

    Накопление всех этих данных не только снижает мощность вычислений, отмечает Саенко; это также обременяет другие части вычислительной инфраструктуры. «Чем больше данных, тем больше накладных расходов», – говорит она. «Даже передача данных с жесткого диска в память графического процессора требует больших затрат энергии».

    Поделиться заботой

    Есть разные попытки смягчить эту проблему. Все начинается на уровне центра обработки данных, где гипермасштабируемые компании делают все возможное, чтобы переключиться на возобновляемые источники энергии, чтобы они могли по крайней мере ответственно использовать свои серверы.

    Другой подход предполагает использование более расчетливого подхода при настройке гиперпараметров. Weights and Biases предлагает услугу «развертки гиперпараметров», которая использует байесовские алгоритмы для сужения области потенциальных изменений при каждом проходе обучения. Он также предлагает алгоритм «ранней остановки», который прерывает тренировочный проход на раннем этапе, если оптимизация не срабатывает.

    Не все подходы включают сложную работу с аппаратным и программным обеспечением. Некоторые просто хотят поделиться. Додж отмечает, что исследователи могут компенсировать углеродные затраты на обучение своей модели, поделившись конечным результатом. Обученные модели, выпущенные в открытом доступе, можно использовать без переобучения, но люди не пользуются этим в достаточной степени.

    «В сообществе ИИ мы часто обучаем модели, а затем не выпускаем их», – говорит он. «Или следующие люди, которые захотят продолжить нашу работу, просто повторно проведут эксперименты, которые мы провели».

    Эти обученные модели также можно точно настроить с помощью дополнительных данных, что позволяет пользователям настраивать существующие оптимизации для новых приложений без переобучения всей модели с нуля.

    Обучение – это еще не все

    Повышение эффективности тренировок решает только одну часть проблемы, и это не самая важная часть. Другая сторона истории ИИ – это умозаключение. Это когда компьютер пропускает новые данные через обученную модель, чтобы оценить их, распознавая хот-доги, которых он никогда раньше не видел. Он по-прежнему требует власти, и быстрое внедрение ИИ делает его еще более серьезной проблемой. Каждый раз, когда вы спрашиваете Siri, как правильно приготовить рис, она использует силу логического вывода в облаке.

    Один из способов уменьшить размер модели – сократить количество параметров. Модели искусственного интеллекта часто используют огромное количество весов в нейронной сети, потому что специалисты по данным не уверены, какие из них будут наиболее полезными. Саенко и ее коллеги исследовали уменьшение количества параметров, используя концепцию, которую они называют сетями смены формы, которые разделяют некоторые параметры в окончательной модели.

    «Вы можете обучить гораздо большую сеть, а затем преобразовать ее в меньшую, чтобы вы могли развернуть меньшую сеть и сэкономить вычисления и развертывание во время логического вывода», – говорит она.

    Компании также работают над аппаратными инновациями, чтобы справиться с этой возросшей нагрузкой на логические выводы. Например, блоки тензорной обработки (TPU) Google предназначены для более эффективной обработки как обучения, так и вывода.

    Решение проблемы логического вывода особенно сложно, потому что мы не знаем, где это произойдет в долгосрочной перспективе. Переход к периферийным вычислениям может привести к тому, что больше заданий по логическому выводу будет выполняться на устройствах с меньшей занимаемой площадью, а не в облаке. Хитрость заключается в том, чтобы сделать модели достаточно маленькими и внедрить аппаратные усовершенствования, которые помогут сделать локальные вычисления ИИ более рентабельными.

    «Насколько компании заботятся о выполнении своих выводов на небольших устройствах, а не в облаке на графических процессорах?» – размышляет Саенко. «Пока еще не так много ИИ, работающего автономно на периферийных устройствах, чтобы действительно дать нам явный стимул для разработки хорошей стратегии для этого».

    Тем не менее движение есть. Apple и Qualcomm уже выпустили специализированные микросхемы для логических выводов на смартфонах, и стартапы становятся все более инновационными в ожидании вывода на основе границ. Например, полупроводниковый стартап Mythic запустил AI-процессор, ориентированный на периферийный ИИ, который использует аналоговые схемы и вычисления в памяти для экономии энергии. Он нацелен на приложения, включая обнаружение объектов и оценку глубины, благодаря которым микросхемы могут быть обнаружены везде, от фабрик до камер наблюдения.

    По мере роста энергопотребления растут и ставки

    Пока компании пытаются решить, делать ли выводы на периферии, проблема повышения энергоэффективности ИИ в облаке остается. Ключ заключается в устранении двух противоположных сил: с одной стороны, все хотят более энергоэффективных вычислений. С другой стороны, исследователи постоянно стремятся к большей точности.

    Додж отмечает, что сегодня большинство научных работ по ИИ сосредоточено на последнем. Точность побеждает, поскольку компании стремятся превзойти друг друга лучшими моделями, соглашается Саенко. «Это может потребовать много вычислительных ресурсов, но людям стоит заявить об улучшении на один или два процента», – говорит она.

    Ей хотелось бы, чтобы больше исследователей публиковали данные об энергопотреблении своих моделей. Это может стимулировать конкуренцию с целью повышения эффективности и снижения затрат.

    Ставки могут быть больше, чем просто экология, предупреждает Бевальд; они тоже могли быть политическими. Что произойдет, если потребление компьютеров будет продолжать расти в 10 раз каждый год?

    «Вы должны покупать энергию для обучения этих моделей, и единственными людьми, которые могут реально себе это позволить, будут Google, Microsoft и 100 крупнейших корпораций», – утверждает он.

    Если мы начнем видеть растущий разрыв в неравенстве в исследованиях искусственного интеллекта, с учетом корпоративных интересов, выбросы углерода могут быть наименьшей из наших проблем. ®

    Предыдущая статьяTchia отправится на консоли PlayStation и ПК в 2022 году
    Следующая статьяGuild Wars 2: Как создать сильного воина, способного нанести урон
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.