Спонсируемый У вас когда-нибудь возникало ощущение, что вы работаете со своими данными, а не наоборот? Многие локальные архитектуры данных постепенно наращивались с годами, создавая разрозненный набор разрозненных структур. Все это работает, но вы, вероятно, не захотите слишком сильно усердствовать.
Эти разрозненные конструкции хрупкие и склонны к поломке. Поскольку это производственная среда, это затрудняет создание чего-либо нового с вашими данными. Его скрытая ценность остается запертой.
«Перенос данных в управляемую облачную среду – хорошая возможность преодолеть эти барьеры и создать платформу для инноваций», – говорит Рахул Патак, вице-президент по аналитике в Amazon Web Services (AWS). Он объясняет, что модернизация данных – это не то, о чем говорил топ-менеджер, но в последнее время ситуация изменилась.
«Данные теперь стали предметом обсуждения на уровне совета директоров для большинства организаций», – говорит Патак. «Поскольку данные за последние пару лет стали более важными, компании теперь понимают, что мы должны рассматривать их как стратегический актив».
Потребность в бизнесе, основанном на данных, возросла, поскольку компании испытывают все большее давление, заставляющее их изобретать себя заново. Технологии продолжают трансформировать бизнес-модели. Старые способы ведения дел не работают, когда новые компании используют горы данных о клиентах и транзакциях для разработки новых услуг, которые подрывают и опережают конкурентов. Итак, организации должны найти новые способы ведения дел, чтобы выжить.
Патак добавляет, что пандемия еще больше обострила потребность в переосмыслении, поскольку компании оказались вынуждены изменить способ своей работы только для того, чтобы оставаться в бизнесе.
«Классическим примером могут быть сети ресторанов или гостиничный бизнес, где им нужно было создавать онлайн-активы, разрешать онлайн-заказы, собирать все эти данные и выполнять эти заказы», - говорит он.
Многим компаниям приходилось делать это с нуля или масштабировать существующие системы в мгновение ока. Это было связано с стремлением к облаку, поскольку они использовали все преимущества – от удаленной работы и совместной работы до онлайн-приложений. Gartner ожидает, что это будет продолжаться, прогнозируя рост использования общедоступных облаков во всем мире на 23% в 2021 году.
Этот переход в облако выходит за рамки простого переноса существующих приложений в виртуальные машины или использования продуктов SaaS; это также включает изменение образа мыслей компаний о данных, когда они находятся в облачной среде. Облако обещает некоторые привлекательные преимущества, в том числе гибкость, масштабируемость и экономическую эффективность, но получение этих преимуществ означает иное управление данными. Короче говоря, это означает создание современной архитектуры данных, в которой облако находится в центре внимания.
По словам Патхака, для построения этой облачной модели данных требуется определенное планирование, добавляя, что Amazon потратила годы на оттачивание процесса благодаря своему внутреннему опыту и сети партнеров. Компания разбивает его на три этапа: модернизация, унификация и инновации.
Модернизировать
Часть модернизации включает перенос баз данных в облачную инфраструктуру данных. Обычно компании начинают с собственной локальной инфраструктуры данных, включая проприетарные лицензии.
Некоторые компании подходят к этой миграции поэтапно, начиная с простой поэтапной миграции в облако, когда компании переносят свои базы данных SQL Server или Oracle на виртуальную машину. В определенной степени это работает, говорит Патак, но они приносят с собой эти ограничительные лицензии.
Патхак предупреждает, что простая миграция их на виртуальные машины в облаке не позволяет полностью использовать преимущества инфраструктуры, ориентированной на данные. Эти ограничительные локальные лицензии так же обременительны для виртуальной машины и будут сдерживать компании, пытающиеся заново изобрести свою архитектуру данных.
Промежуточным шагом является перенос классических развертываний Oracle в службу реляционной базы данных Amazon (RDS. Это устраняет проблему лицензирования, преобразовывая ее в простую услугу с оплатой по мере использования с использованием инстансов по требованию или зарезервированных инстансов. Это значительно продвинет вас вперед). в сторону утопии данных, говорит Патак, но вам все равно придется немного поработать в фоновом режиме с РСУБД, не предназначенной для облака.Например, вы должны вручную настроить такие вещи, как несколько зон доступности в Oracle.
Третий вариант – это миграция на облачную базу данных, такую как реляционная система Amazon Aurora, которая была создана с нуля для работы в облаке. Это открывает доступ к производительности, доступности и стоимости, которую нелегко получить, перенеся устаревшие базы данных в облако.
«Способ, которым Aurora управляет хранилищем записи параллельно, полностью отличается от того, как изначально разрабатывались базы данных», – говорит он, поясняя, что разработка для облака с нуля позволила компании принимать новые решения на основе хорошо масштабируемого и доступного уровня хранилища.
Облачные базы данных в портфеле Amazon управляются, что означает, что все эти базовые механизмы обрабатываются автоматически для пользователя. По словам Патака, такой подход позволяет использовать в облаке как проприетарных баз данных, так и пользователей баз данных с открытым исходным кодом. Пользователи с открытым исходным кодом могут не иметь таких же обременительных лицензий на программное обеспечение, чтобы иметь дело с ними, но они по-прежнему получают выгоду от облачной службы, которая берет на себя все рутинные операционные задачи, связанные с обслуживанием ядра базы данных. Они также получают преимущество базы данных, предназначенной для обеспечения высокой доступности.
Другая часть процесса модернизации данных – это изменение архитектуры данных для специализированных баз данных. В то время как Aurora передает реляционные модели данных в облако, AWS также предлагает другие услуги управляемых баз данных с индивидуальной поддержкой для конкретных случаев использования. Они варьируются от потоковых приложений временных рядов до графовых моделей баз данных через Amazon Neptune, которые хорошо подходят для отображения сложных транзитивных отношений. Другие включают DynamoDB, который полезен для приложений веб-масштаба, которые отказываются от реляционных схем в пользу пар ключ-значение.
Такое использование специально созданных баз данных для конкретных случаев использования идет рука об руку с модернизацией архитектуры приложений, отмечает Патак. «Речь идет о переходе от старого образа мыслей о приложении как о монолите, который идет против единой базы данных, к слабо связанной, сильно распределенной архитектуре с микросервисами, работающими с несколькими специально созданными базами данных», – говорит он.
«Эта часть процесса модернизации помогает снизить затраты несколькими способами», – добавляет он, приводя в качестве примера компанию Disney. Развлекательная компания расширила существующие отношения с AWS, запустив потоковый сервис Disney +. С самого начала он использовал преимущества специализированных баз данных, используя хранилища ключей AWS для управления своими списками наблюдения за подписчиками. Эта оптимизация для простого хранения данных «поставил и получил» помогает повысить эффективность.
Унифицировать
По словам Патхака, вторым шагом на пути к зрелой миграции данных в облако является унификация. «Одна из самых больших проблем заключается в том, что клиенты часто хранят свои данные в разных хранилищах», – объясняет он. «Унификация – это возможность получить доступ к вашим данным хорошо управляемым способом, где бы они ни находились». По его словам, переход к облачной инфраструктуре – прекрасная возможность решить эту проблему. Клиенты могут загружать свои данные в озера данных, сохраняя при этом необходимые данные в специализированных хранилищах данных для повышения производительности. Для этого они будут использовать Lake Formation – инструмент AWS для создания озер данных, хранящихся в Amazon Simple Storage Service (S3), и управления ими. AWS также может объединять данные из нескольких механизмов баз данных с помощью механизма AWS Glue, который предлагает каталог метаданных, позволяющий клиентам выполнять поиск и применять права доступа к данным по всем направлениям. Это полезно для унифицированного управления данными.
Вводить новшества
После переноса данных в облако и централизованного управления самое время заняться с ними интересными вещами. Именно здесь вступает в игру третий этап инфраструктуры модернизации данных AWS – инновации.
На этапе инноваций используются сервисы, разработанные в облаке, которые было бы сложно создать в локальной среде, с особым упором на машинное обучение. Обучение моделей машинного обучения – это ресурсоемкий процесс, идеально подходящий для масштабируемых облачных сред. Все это происходит за кулисами для многих сервисов машинного обучения, таких как обработка естественного языка, распознавание речи и компьютерное зрение, которые затем доступны клиентам через простые облачные API. Для тех, кто хочет обучать свои собственные модели, компания поддерживает такие фреймворки, как TensorFlow, с ценами на инстансы графического процессора.
AWS также предлагает SageMaker, интегрированную среду разработки для задач машинного обучения, которая позволяет разработчикам и специалистам по обработке данных в равной степени подготавливать данные для моделей машинного обучения, создавать модели машинного обучения, обучать их, а затем развертывать их, когда они оптимально подходят.
Патак говорит, что AWS также работает над сокращением разрыва между управляемыми базами данных и инструментами машинного обучения. «Мы создали ряд интеграций, чтобы приблизить машинное обучение к данным, сделав его более неотъемлемой частью самого хранилища данных», – объясняет он.
Например, сервис Aurora ML компании позволяет клиентам получать доступ к моделям машинного обучения с помощью SQL-запросов к транзакционным данным в управляемой реляционной базе данных AWS. Он поддерживает ряд алгоритмов машинного обучения, в том числе предлагаемые AWS и его партнерами, а также разработанные в SageMaker. Заказчики получают выходные данные этих моделей в виде результатов SQL-запроса. Он предлагает аналогичные возможности для своего движка графической базы данных Нептуна.
«Мы можем выполнять машинное обучение с данными из базы данных более производительно, без необходимости перемещать их без необходимости», – заключает Патак. Путь к модернизации данных потребует времени и планирования, но он будет стоить усилий компаниям, которые хотят раскрыть внутреннюю ценность своих данных. В мире полно администраторов баз данных и разработчиков, которые стараются изо всех сил работать с фрагментированной и хрупкой средой. Объединение и управление этими данными вернет их на место водителя.
При поддержке Amazon Web Services