Что AWS Redshift ML может сделать для вас

    0
    30


    Платная функция Приложения машинного обучения могут делать удивительные вещи, но для многих пользователей их создание остается проблемой. Получение необходимых данных, а затем обработка их в ходе сложного, повторяющегося процесса обучения — сложный процесс, требующий множества специализированных задач. В мае 2021 года Amazon выпустила Redshift ML, сервис, который упрощает извлечение данных из своего хранилища данных Redshift, а затем создает автоматизированные рабочие процессы обучения, которые создают на его основе модели ИИ. Он объединяет аналогичные службы для других баз данных, таких как Aurora ML и Neptune ML.

    Redshift ML фокусируется на создании моделей ИИ на основе обучения с учителем, что сегодня является самым популярным подходом к ИИ. В отличие от альтернатив, таких как неконтролируемое обучение или методы обучения с подкреплением, он требует существующих данных, которые кто-то уже пометил. Изображения дорожных знаков могут быть помечены как знаки, а изображения леденцов, книг или полуприцепов со стрелками на них, имеющие мимолетное сходство со знаками, могут быть помечены как не-знаки. Данные обучения также могут быть фрагментами естественного языка, указывающими на определенные настроения, данными о вибрации турбин, коррелирующими с надвигающимся отказом, или транзакциями клиентов, указывающими на определенное поведение.

    Чем больше этих данных сможет получить ИИ-ученый, тем лучше. Это помогает повысить точность, особенно в крайних случаях, когда данные легко пометить неправильно. По мере повышения уровня точности ценность этого ИИ становится более полезной. Облачные системы искусственного интеллекта с высокой точностью и большой вычислительной мощностью могут принимать решения о данных на скорости и в объеме.

    Работа со сложными рабочими процессами ИИ

    Проблема контролируемого обучения всегда заключалась в управлении рабочим процессом обучения. Это сложный процесс, и отслеживать все этапы сложно. Он начинается с выбора обучающих данных, которые могут поступать из нескольких источников. Эти данные должны быть очищены и подготовлены для использования программой обучения ИИ, которая часто представляет собой отдельный инструмент или библиотеку.

    Программист должен выбрать наиболее подходящий алгоритм для обучения этих данных. Они различаются в зависимости от типа данных, с которыми вы работаете, и результата, который вы ищете. Например, решение о том, как пометить дискретный фрагмент данных, скорее всего, потребует алгоритма классификации. Если вы прогнозируете непрерывную величину, такую ​​как цена актива с течением времени, то алгоритм регрессии может быть более подходящим. Существуют также различные типы регрессии. После выбора алгоритма вам нужно будет настроить дополнительные аспекты структуры обучения ИИ, известные как гиперпараметры, чтобы они соответствовали входным и выходным данным.

    Вооружившись соответствующей программой, вы должны начать тренировку. Это часто будет давать некачественные результаты, а это означает, что вы должны вернуться и поработать со своим кодом и/или данными, настроив его для получения лучших результатов. Это требует нескольких прогонов, и именно здесь большая часть работы заключается в процессе моделирования ИИ. Даже при обучении в облаке важно усовершенствовать его как можно эффективнее, поскольку обучение — это процесс, требующий больших вычислительных ресурсов, и каждый запуск связан с вычислительными затратами.

    Затем следует развертывание. Когда модель достаточно хороша, кто-то должен развернуть ее, а затем отслеживать, как она принимает решения о производственных данных (известные как логические выводы). Это включает в себя отслеживание затрат и проверку точности решений модели. Наконец, администраторы должны обеспечивать бесперебойную работу вывода, выделяя достаточно ресурсов для обработки процесса вывода.

    Как Redshift ML помогает

    Это специализированные рабочие места, которые обычно занимают несколько членов команды. AWS Redshift упростил задачу, объединив структурированные и частично структурированные данные из нескольких источников, включая AWS S3, и преобразовав их в различные представления. Amazon также представила инструмент Sagemaker для автоматизации процесса обучения. Это сгладило некоторые недостатки в рабочем процессе обучения ИИ, но пробелы между этими инструментами по-прежнему ложатся управленческим бременем на команды, вынуждая их управлять экспортом данных.

    Redshift ML создал более объединенный рабочий процесс. Это позволяет специалистам по данным получать данные, которые им нужны для их модели обучения, непосредственно из Redshift с помощью SQL-запросов. Это упрощает эксперименты с входными данными, которые могут сделать вашу модель ИИ более точной. Продукт также автоматизирует подготовку данных и выбирает наиболее подходящий алгоритм с помощью CREATE MODEL Команда SQL, которая строит модель для вас.

    Затем Redshift ML экспортирует эти данные в корзину S3, делая их доступными для Sagemaker за кулисами. Для этого он использует Sagemaker Autopilot, который автоматизирует большую часть тренировочной работы. Автопилот, который также может вводить табличные данные непосредственно из S3, управляет автоматическим созданием модели и использует блокноты моделей для создания отчетов о качестве модели. Он также предоставляет таблицы лидеров моделей, позволяя пользователям сравнивать и выбирать модели на основе лучших результатов.

    Это не будет полностью невмешательством. Пользователи по-прежнему захотят проверить, как проходит это обучение по разным причинам. Они захотят убедиться, что они не превышают свой бюджет на обучение, и проверить результаты каждого раунда обучения, чтобы увидеть, насколько хорошо модель соответствует данным обучения. Все это они могут сделать из командной строки SQL с SHOW MODEL ALL Команда, которая показывает, на каком этапе обучения они находятся и сколько уже стоит обучение. Это также подчеркнет точность модели как оценку от 0 до 1.

    Поскольку Redshift ML работает в AWS, Amazon легко интегрировать обучение и процесс с развертыванием в рабочую среду. Сервис автоматически развертывает обученную модель в рабочей среде в облаке. На этом этапе люди могут использовать SQL-запросы в Redshift ML для прогнозирования производственных данных.

    Преимущества объединенного рабочего процесса ИИ

    Подводя итог, можно сказать, что рабочие процессы машинного обучения могут быть сложными и повторяющимися. Redshift ML упрощает обучение моделей. Когда вы запускаете команду SQL для создания модели, Amazon Redshift ML безопасно экспортирует указанные данные из Amazon Redshift в Amazon S3 и вызывает SageMaker Autopilot для автоматической подготовки данных, выбора соответствующего предварительно созданного алгоритма и применения алгоритма для обучения модели. .

    Подобное присоединение к рабочему процессу ИИ дает ряд существенных преимуществ.

    Amazon Redshift ML обрабатывает все взаимодействия между Amazon Redshift, Amazon S3 и SageMaker, абстрагируя этапы обучения и компиляции. После обучения модели Amazon Redshift ML делает ее доступной в качестве функции SQL в вашем хранилище данных Amazon Redshift.

    Подобное присоединение к рабочему процессу ИИ дает ряд существенных преимуществ. Одним из самых больших является его доступность. Использование SQL во всем рабочем процессе упрощает определение входных данных для обучающих моделей, а затем управление этим обучением с помощью языка, понятного каждому разработчику баз данных. Это также уменьшает или устраняет использование внешних инструментов для управления частями этого рабочего процесса.

    Эта возможность SQL также распространяется на прогнозы, а это означает, что люди могут использовать язык для прогнозирования непосредственно из хранилища данных. Redshift ML может импортировать обученную модель из Sagemaker для локального вывода. Это позволяет людям генерировать прогнозы с помощью SQL без необходимости отправлять данные за пределы вашего хранилища данных.

    Amazon говорит, что Redshift ML также может помочь сократить расходы. Отчасти это связано с ценовой моделью. Система включает прогнозирование стоимости этих кластеров Redshift, что позволяет клиентам платить только за стоимость обучения.

    Функция автоматического выбора алгоритма устраняет большую часть накладных расходов на разработку с тренеров по ИИ, но Amazon утверждает, что она нашла баланс между контролем и удобством использования, позволяя более опытным пользователям указывать типы своих проблем и выбирать алгоритмы, которые они хотят использовать. Они также могут изменять значения, используемые для управления процессом обучения.

    Amazon считает, что этот более простой доступ к рабочим процессам ИИ также снижает производительность разработчиков и повышает скорость запросов. Фактически, он считает, что пользовательская база может полностью выйти за рамки традиционных разработчиков и специалистов по данным. Он надеется, что другие типы работников, такие как линейные бизнес-менеджеры, могут захотеть принять участие в этом акте.

    Можем ли мы ожидать революцию с низким кодом для ИИ? Одно можно сказать наверняка: спрос на облачные приложения ИИ растет. В 2021 году PwC обнаружила, что четверть предприятий США сообщают о широком внедрении ИИ в свой бизнес, по сравнению с 18 процентами годом ранее. Еще 54% сообщили, что быстро готовятся последовать их примеру. Цифры показывают, что очень много аналитиков бизнес-аналитики заняты.

    Потенциальные варианты использования ИИ на основе контролируемого обучения разнообразны. Прогнозы очень привлекательны для компаний, стремящихся к скорейшему выходу на рынок. Они могут использовать модели искусственного интеллекта, полученные из хранилища данных, чтобы прогнозировать все, от оттока клиентов до вероятности закрытия сделки.

    Они даже могут использовать машинное обучение, чтобы прогнозировать пожизненную ценность клиента, что имеет значение при планировании стратегий маркетинга и поддержки клиентов. Amazon сообщает нам, что некоторые из наиболее интересных вариантов использования включают в себя такие вещи, как обнаружение оттока клиентов, прогнозирование закрытия потенциальных клиентов, прогнозы спроса и доходов, рекомендации по продуктам и обнаружение мошенничества.

    Другие потенциальные приложения для машинного обучения в сочетании с хранилищем данных включают обнаружение мошенничества. Запуск отчетов на основе ИИ для обнаружения подозрительной активности может помочь обнаружить разрушительное возникающее поведение и спасти тысячи людей.

    Концептуально ИИ уже более полувека, но современное машинное обучение на основе графических процессоров и облака существует всего десять лет. Инструменты и сервисы, упрощающие интеграцию рабочих процессов и автоматически выполняющие некоторые шаги, обещают открыть приложения ИИ большему количеству людей в облаке. Redshift ML дополняет инструмент для хранения данных, который уже позволяет пользователям легко объединять данные из разрозненных источников в одном месте. По мере того, как клиенты осваивают эту новую возможность, мы можем ожидать, что пользователи будут создавать в AWS гораздо больше контролируемых приложений машинного обучения на основе обучения.

    При поддержке AWS.

    Предыдущая статьяMeta запускает 3D-аватары в своих приложениях
    Следующая статьяXiaomi MIUI 13/Android 12: жидкостное хранилище
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.