Microsoft зеркалирует рабочие нагрузки внешнего хранилища данных

    0
    2


    Зажечь Microsoft советует клиентам, использующим свою платформу Fabric, копировать данные из других хранилищ данных и аналитических систем, что противоречит преобладающей отраслевой тенденции.

    Fabric, которая включает в себя хранилище данных, озеро данных, аналитику, BI и машинное обучение, была запущена ранее в этом году, обещая удовлетворить «каждый аспект аналитических потребностей организации».

    На конференции Ignite, проводимой софтверным гигантом в Редмонде, Microsoft объявила о его общедоступности, а также о нескольких новых функциях.

    Среди них — Mirroring, способ добавления и управления существующими облачными хранилищами данных и базами данных в системе Synapse Data Warehouse компании Fabric. Microsoft заявила, что Mirroring реплицирует снимок внешней базы данных в OneLake в таблицах Delta Parquet и обеспечивает синхронизацию реплики «почти в реальном времени».

    Отсюда пользователи могут создавать ярлыки, позволяющие другим рабочим нагрузкам Fabric — соединителям, разработке данных, построению моделей искусственного интеллекта, хранилищам данных — использовать данные без их повторного перемещения. Microsoft пообещала, что Azure Cosmos DB и Azure SQL DB смогут использовать зеркалирование для доступа к данным в OneLake, в то время как поставщик облачной платформы данных Snowflake и клиенты базы данных NoSQL MongoDB смогут делать то же самое.

    Этот шаг в некоторой степени соответствует тенденции, наблюдаемой в сфере хранилищ данных и аналитики за последние пару лет. Благодаря поддержке формата таблицы Delta другие совместимые аналитические системы смогут получать доступ к данным OneLake и использовать их, не перемещая их.

    Delta поддерживается гигантом приложений SAP и Databricks.

    Но другие используют другой формат таблиц — Apache Iceberg — для той же цели. К ним относятся Снежинка, Клаудера и GoogleЭто БигЛейк.

    Iceberg и Delta по сути являются уровнями метаданных в формате хранения данных Apache Parquet.

    Хотя оба формата, а также Apache Hudi, созданы для того, чтобы помочь аналитическим системам работать с данными, избегая затрат на их перемещение, Microsoft утверждает, что копирование данных из других источников необходимо для повышения производительности.

    Разговаривая с РегистрАрун Улаг, главный вице-президент Azure Data, сказал, что идея зеркалирования заключалась в том, чтобы позволить клиентам, данные которых находятся в собственных базах данных и хранилищах данных, таких как, например, Snowflake, создавать и поддерживать реплику OneLake.

    Хотя для этого может потребоваться хранить данные в двух местах, Улаг утверждает, что это даст преимущества в производительности.

    «Большая часть данных Snowflake хранится не в Iceberg, — сказал он, — а в их собственной собственной базе данных. Как и другие данные в собственном формате данных, единственный способ получить к ним доступ — пройти через интерфейс SQL, который Это увеличивает затраты для клиентов. Это также означает, что существует еще один уровень исполнения, который замедляет производительность».

    Например, для копирования данных в Fabric Power BI даже не требуется отправлять SQL-запросы в Snowflake, поскольку данные хранятся в Apache Parquet и Delta Lake, родном формате OneLake. «Он просто перейдет в OneLake и вставит его в память при поступлении запросов», — сказал Улаг. «Это дает вам значительное ускорение производительности, потому что вы знаете, что исключаете все выполнение SQL».

    Snowflake была предоставлена ​​возможность прокомментировать преимущества в производительности копирования данных из своей среды для аналитики.

    Один отраслевой эксперт сказал, что Microsoft придется скопировать данные, чтобы повысить производительность запросов, пока она не будет поддерживать Iceberg изначально, что, по ее словам, будет в будущем. Также возможно, что Microsoft считает, что может управлять данными лучше, чем Snowflake, чтобы повысить производительность запросов за счет управления кластеризацией, говорят они.

    Хён Пак, генеральный директор и главный аналитик Amalgam Insights, сказал: «Microsoft была бы рада взять любые файлы Parquet и поместить их в озеро данных Microsoft, а также была бы рада принять любые данные Snowflake, которые она сможет получить в процессе».

    Но за кулисами могут быть причины, по которым Microsoft на данный момент фокусируется на Delta, а не на Iceberg.

    «Мы знаем, что на данный момент есть только одна крупная компания, которая сосредоточилась на формате Delta Lake, и это мощный стартап Databricks», — сказал Пак. «Также существует продукт Azure Databricks, и он работает очень хорошо. Фактически, это, возможно, самый успешный продукт в Microsoft Azure. Наши данные показывают, что в настоящее время это многомиллиардный бизнес с учетом озера данных и связанных с ним аналитические нагрузки и нагрузки машинного обучения.

    «Microsoft не скрывает того факта, что она делает большую ставку в своем краткосрочном росте на искусственный интеллект. Это означает, что Microsoft хочет иметь возможность поддерживать формат Delta Lake и выполнять как можно большую часть работы самостоятельно. инфраструктура и ресурсы».

    Пак сказал, что у Microsoft также есть большой объем облачного бизнеса Azure, который напрямую зависит от Databricks, и она хотела бы сделать все возможное, чтобы не потерять этот бизнес. «Хотя Iceberg является более распространенным стандартом озера данных, если посмотреть на среду поставщиков ИТ-услуг, Databricks добился больших успехов в предоставлении инфраструктуры машинного обучения на уровне данных», — сказал он.

    Однако он сказал, что Microsoft в конечном итоге также станет важным участником Iceberg.

    В Ignite Microsoft заявила, что расширит возможности своего чат-бота Copilot до Fabric. Этот шаг, который сейчас находится в публичной предварительной версии, обещает позволить ученым, работающим с данными, использовать естественный язык для создания потоков данных и конвейеров, написания операторов SQL, построения отчетов и разработки моделей машинного обучения. ®

    Предыдущая статьяКак разблокировать номер на своем iPhone
    Следующая статьяGoogle начнет удалять фотографии и Gmail неактивных учетных записей
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.