Microsoft зеркалирует рабочие нагрузки внешнего хранилища данных

От

15.11.2023

Зажечь Microsoft советует клиентам, использующим свою платформу Fabric, копировать данные из других хранилищ данных и аналитических систем, что противоречит преобладающей отраслевой тенденции.

Fabric, которая включает в себя хранилище данных, озеро данных, аналитику, BI и машинное обучение, была запущена ранее в этом году, обещая удовлетворить «каждый аспект аналитических потребностей организации».

На конференции Ignite, проводимой софтверным гигантом в Редмонде, Microsoft объявила о его общедоступности, а также о нескольких новых функциях.

Среди них — Mirroring, способ добавления и управления существующими облачными хранилищами данных и базами данных в системе Synapse Data Warehouse компании Fabric. Microsoft заявила, что Mirroring реплицирует снимок внешней базы данных в OneLake в таблицах Delta Parquet и обеспечивает синхронизацию реплики «почти в реальном времени».

Отсюда пользователи могут создавать ярлыки, позволяющие другим рабочим нагрузкам Fabric — соединителям, разработке данных, построению моделей искусственного интеллекта, хранилищам данных — использовать данные без их повторного перемещения. Microsoft пообещала, что Azure Cosmos DB и Azure SQL DB смогут использовать зеркалирование для доступа к данным в OneLake, в то время как поставщик облачной платформы данных Snowflake и клиенты базы данных NoSQL MongoDB смогут делать то же самое.

Этот шаг в некоторой степени соответствует тенденции, наблюдаемой в сфере хранилищ данных и аналитики за последние пару лет. Благодаря поддержке формата таблицы Delta другие совместимые аналитические системы смогут получать доступ к данным OneLake и использовать их, не перемещая их.

Delta поддерживается гигантом приложений SAP и Databricks.

Но другие используют другой формат таблиц — Apache Iceberg — для той же цели. К ним относятся Снежинка, Клаудера и GoogleЭто БигЛейк.

Iceberg и Delta по сути являются уровнями метаданных в формате хранения данных Apache Parquet.

Хотя оба формата, а также Apache Hudi, созданы для того, чтобы помочь аналитическим системам работать с данными, избегая затрат на их перемещение, Microsoft утверждает, что копирование данных из других источников необходимо для повышения производительности.

Разговаривая с РегистрАрун Улаг, главный вице-президент Azure Data, сказал, что идея зеркалирования заключалась в том, чтобы позволить клиентам, данные которых находятся в собственных базах данных и хранилищах данных, таких как, например, Snowflake, создавать и поддерживать реплику OneLake.

Хотя для этого может потребоваться хранить данные в двух местах, Улаг утверждает, что это даст преимущества в производительности.

«Большая часть данных Snowflake хранится не в Iceberg, — сказал он, — а в их собственной собственной базе данных. Как и другие данные в собственном формате данных, единственный способ получить к ним доступ — пройти через интерфейс SQL, который Это увеличивает затраты для клиентов. Это также означает, что существует еще один уровень исполнения, который замедляет производительность».

Например, для копирования данных в Fabric Power BI даже не требуется отправлять SQL-запросы в Snowflake, поскольку данные хранятся в Apache Parquet и Delta Lake, родном формате OneLake. «Он просто перейдет в OneLake и вставит его в память при поступлении запросов», — сказал Улаг. «Это дает вам значительное ускорение производительности, потому что вы знаете, что исключаете все выполнение SQL».

Snowflake была предоставлена возможность прокомментировать преимущества в производительности копирования данных из своей среды для аналитики.

Один отраслевой эксперт сказал, что Microsoft придется скопировать данные, чтобы повысить производительность запросов, пока она не будет поддерживать Iceberg изначально, что, по ее словам, будет в будущем. Также возможно, что Microsoft считает, что может управлять данными лучше, чем Snowflake, чтобы повысить производительность запросов за счет управления кластеризацией, говорят они.

Хён Пак, генеральный директор и главный аналитик Amalgam Insights, сказал: «Microsoft была бы рада взять любые файлы Parquet и поместить их в озеро данных Microsoft, а также была бы рада принять любые данные Snowflake, которые она сможет получить в процессе».

Но за кулисами могут быть причины, по которым Microsoft на данный момент фокусируется на Delta, а не на Iceberg.

«Мы знаем, что на данный момент есть только одна крупная компания, которая сосредоточилась на формате Delta Lake, и это мощный стартап Databricks», — сказал Пак. «Также существует продукт Azure Databricks, и он работает очень хорошо. Фактически, это, возможно, самый успешный продукт в Microsoft Azure. Наши данные показывают, что в настоящее время это многомиллиардный бизнес с учетом озера данных и связанных с ним аналитические нагрузки и нагрузки машинного обучения.

«Microsoft не скрывает того факта, что она делает большую ставку в своем краткосрочном росте на искусственный интеллект. Это означает, что Microsoft хочет иметь возможность поддерживать формат Delta Lake и выполнять как можно большую часть работы самостоятельно. инфраструктура и ресурсы».

Microsoft зеркалирует рабочие нагрузки внешнего хранилища данных

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Местные органы власти не являются бизнесом, поэтому ERP не работает

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Местные органы власти не являются бизнесом, поэтому ERP не работает

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА