[ad_1]
Интервью Компаниям не нужно тратить миллионы долларов на обучение ИИ, поскольку усовершенствования программного обеспечения и модели с открытым исходным кодом снижают затраты.
Это шаг от предприятия, продающего свои услуги компаниям, которые хотят разрабатывать новые продукты ИИ, но не имеют ресурсов для создания собственных проприетарных моделей с нуля. На данный момент они могут получить доступ к моделям из широкого спектра API-интерфейсов, предлагаемых стартапами машинного обучения, или выбрать готовые системы от облачных провайдеров. Теперь есть и другие альтернативы, такие как партнерство с поставщиком, который может помочь им настроить частные модели или модели с открытым исходным кодом.
Последний вариант со временем становится все более предпочтительным, поскольку затраты на обучение и выводы снижаются, а компании хотят, чтобы их данные были конфиденциальными и безопасными, объяснил Навин Рао, генеральный директор и соучредитель MosaicML. Регистр. Рао был бывшим вице-президентом и генеральным менеджером группы продуктов искусственного интеллекта в Intel и руководил разработкой микросхемы искусственного интеллекта, которая позже была исключена из линейки продуктов Intel.
Рао применил свои знания в области машинного обучения и аппаратного обеспечения в новом стартапе, который помогает предприятиям обучать и запускать собственные генеративные системы искусственного интеллекта с низкими затратами.
MosaicML недавно выпустила серию больших языковых моделей (LLM) с открытым исходным кодом, основанных на архитектуре MPT-7B, состоящих из семи миллиардов параметров. Он имеет контекстное окно, растягивающееся до 64 000 токенов, что означает, что он может обрабатывать текст с сотен страниц документов за один раз. В отличие от большинства LLM, таких как модель Meta LLaMA, которую можно использовать только в исследовательских целях, MPT-7B поддерживает коммерческие приложения.
«Такого рода вещи определенно очень привлекательны, и мы сделали это по нескольким причинам», — сказал Рао. Регистр. «Во-первых, мы хотели иметь модель, имеющую разрешение на коммерческое использование. Мы не хотим подавлять такого рода инновации.
«Мы также показали это как демонстрацию того, сколько это стоит. Если к нам придет клиент и скажет обучить эту модель, мы можем сделать это за 200 000 долларов, и мы все равно заработаем на этом. Поэтому я думаю, что здесь важно то, что это реальная деловая цифра — это не десятки и не миллионы долларов».
MosaicML утверждает, что предлагает более мощные модели, чем MPT-7B, и может помочь компаниям разрабатывать свои собственные частные модели, которые можно размещать на различных облачных платформах или настраивать модели с открытым исходным кодом. По словам Рао, их данные не передаются стартапу, и они владеют весами модели и ее IP.
«Коммерческие API — отличный инструмент для создания прототипов. Я думаю, что с сервисами типа ChatGPT люди будут использовать их для развлечения и, возможно, для каких-то личных вещей, но не для компаний. Данные — это очень важный ров для компаний. Компании хотят защитить свои данные, Верно? Во всяком случае, они хотят делать это больше сейчас, когда вы можете фактически активировать эти данные с помощью больших моделей. Это не обязательно было правдой пять лет назад, но теперь это действительно так. Ценность этих данных на самом деле выросла», — Рао. сказал.
Аппаратные сбои и проблемы с GPU
MosaicML создал программные инструменты для более эффективного обучения и запуска моделей ИИ, чтобы снизить затраты. Рао сказал, что низкоуровневые улучшения программного обеспечения для оптимизации связи между графическими процессорами позволяют компании выжать из чипов как можно больше вычислительной мощности и сделать процесс обучения более плавным.
«Графические процессоры на самом деле довольно часто выходят из строя, — сказал он. «Если вы тренируетесь, скажем, на 1000 графических процессоров и, скажем, платите 2 доллара в час за каждый GPU, вы сжигаете 2000 долларов в час. Если узел выходит из строя и требуется ручное вмешательство, это занимает ты пять часов [to fix], вы только что сожгли 10 000 долларов без работы, верно? Таковы масштабы вещей. Автоматизация всего этого процесса — от пяти часов ручного вмешательства до 15 минут автоматического возобновления — сэкономит вам массу денег».
MosaicML, например, обучил MPT-7B за 9,5 дней и в ходе этого процесса столкнулся с четырьмя аппаратными сбоями. Обучение больших языковых моделей затруднено и требует тщательной координации. Данные должны обрабатываться кластером микросхем синхронно, а веса модели обновляются до тех пор, пока ее производительность не стабилизируется. Запуски обучения неожиданно аварийно завершаются, и разработчикам часто приходится перезапускать процесс.
«Иногда он просто взрывается. Это выглядит почти как сбой узла. Вы должны сделать резервную копию всего и как бы перезапустить его. Я думаю, что упаковка памяти вместе с чипом [is complex]. Когда в системах много тепла, начинают проявляться разного рода сбои. Вы получаете эти замедления пропускной способности, а затем иногда они просто умирают», — сказал нам Рао.
Избегая этих проблем, компании могут позволить себе создавать собственные модели ИИ. Рао сказал, что MosaicML позволяет им ощутить машинное обучение, работая с моделью меньшего размера. OctoML, стартап, ориентированный на внедрение моделей в производство, создал собственную мультимодальную систему на основе одной языковой модели MosaicML MPT-7B Instruct.
Система, получившая название InkyMM, также имеет открытый исходный код и позволяет разработчикам, использующим платформу OctoML, экспериментировать и быстро создавать приложения. Компании могут использовать эти инструменты, чтобы найти рынок, подходящий для их продукта, без необходимости вкладывать огромные первоначальные инвестиции, которые в конечном итоге могут не окупиться, сказал соучредитель и генеральный директор OctoML Луис Сезе. Регистр.
Существуют затраты на поддержание ИИ в рабочем состоянии, которые предприятия также должны учитывать. «Экономика должна быть благоприятной. На самом деле все сводится к тому, насколько оптимизированным вы можете это сделать. Каждый раз, когда вы вводите в ChatGPT, он выполняет логический вывод и выдает слова. Каждый из них в основном работает на веб-сервере восемь графических процессоров. Этот сервер стоит примерно 150 000 долларов, чтобы построить. Так что это очень дорого стоит», — сказал Рао.
«Настоящая оптимизация этого стека, объединение нескольких запросов и эффективное использование оборудования — вот суть игры. Гораздо важнее сделать его суперэффективным, чтобы вы не тратили зря время графического процессора на меньший масштаб на запрос».
Есть еще одно преимущество для компаний, которые обучают или настраивают пользовательские модели на своих личных данных. Они могут контролировать то, что потребляют эти системы, и формировать их поведение. Точная настройка предварительно обученной системы на небольших специализированных наборах данных и тщательная подсказка могут повысить ее точность, сделав их менее склонными к генерации ложных фактов.
«Эта идея максимальной настройки — это то, что мы можем реализовать сейчас, потому что затраты снизились до точки, когда вы действительно можете воплотить это в жизнь», — сказал Рао.
С тех пор MosaicML выпустила свою более крупную модель с открытым исходным кодом MPT-30B с 30 миллиардами параметров. Компания заявляет, что это первая общеизвестная крупноязыковая модель, обученная с использованием графических процессоров Nvidia H100. Сообщается, что обучение MPT-30B с использованием 512 новейших чипов Nvidia в течение 11,6 дней стоило 570 000 долларов. Цена доходит до 700 000 долларов, и для обучения MPT-30B с той же точностью требуется 28,3 дня с чипами Nvidia A100 предыдущего поколения.
Хотя такие стартапы, как MosaicML, помогают снизить затраты на обучение и логические выводы, есть еще одна проблема, которую они не могут решить напрямую: нехватка микросхем. В настоящее время разработчикам сложно обеспечить безопасность вычислений, необходимых для построения или запуска их моделей. Они должны запрашивать время заранее, чтобы арендовать ресурсы, и могут ждать месяцами. «Мы собираемся жить в этом мире нехватки графических процессоров по крайней мере два года, может быть, пять. Примерно так я оцениваю», — сказал Рао. ®
[ad_2]