Microsoft Fabric берет на себя лоскутное одеяло корпоративной аналитики

    0
    2


    Относительный новичок в мире корпоративных данных и аналитики, Microsoft не сдерживалась, когда в прошлом месяце запустила свою платформу Fabric.

    В противовес таким компаниям, как SAS и Teradata — с более чем 95-летней историей между ними — софтверный гигант из Редмонда, запустивший свое хранилище данных Synapse только в 2019 году, пообещал удовлетворить «все аспекты потребностей организации в аналитике».

    Это смелое заявление для организаций, потребности которых уже могут удовлетворяться сложными уровнями поставщиков, технологий и архитектур, каждый из которых обслуживает различные бизнес-потребности или группы пользователей.

    Решение Microsoft прыгнуть обеими ногами было предвосхищено некоторыми шагами других крупных игроков в создании облачных озер данных, хранилищ и аналитики.

    В январе прошлого года компания Snowflake, занимающаяся облачным хранилищем данных, объявила о поддержке внешних таблиц для Apache Iceberg в режиме закрытого предварительного просмотра, а летом — в общедоступной версии. Cloudera последовала их примеру в июле, а Google объявила о поддержке формата таблицы с открытым исходным кодом в октябре прошлого года.

    Все это важно, потому что обещает изменить экономику аналитики, позволяя пользователям привносить аналитику в данные, а не тратить деньги и усилия на перемещение данных в конкретный репозиторий.

    Сейчас Microsoft делает что-то подобное, но немного по-другому. Компания объявила о своей поддержке формата таблиц Delta, который является открытым исходным кодом через Linux Foundation, но получает большую часть своего вклада от Databricks, компании, занимающейся искусственным интеллектом и аналитикой, когда-то известной поддержкой унифицированного аналитического механизма Apache Spark. SAP также поддержала Delta через партнерство с Databricks, хотя обе компании заявили, что в нужный момент поддержат Iceberg и Hudi, другой формат таблиц.

    Но Microsoft выбрала Delta из-за рыночного спроса, сказал Арун Улаг, корпоративный вице-президент Azure Data. Регистр.

    «Если вы вносите данные в хранилище данных, вы помещаете данные в собственный проприетарный формат, что с точки зрения клиентов не очень хорошо, потому что они чувствуют себя запертыми: каждый раз, когда они прикасаются к своим собственным данным, им приходится платить кому-то, чтобы иметь возможность Таким образом, в Fabric это исчезает. Родной формат для Fabric — это формат данных с открытым исходным кодом, который с точки зрения клиентов был действительно захватывающим, потому что, если он освобождает данные, он позволяет им использовать всю экосистему открытых исходные инструменты против данных», — сказал он.

    Хотя поддержка Iceberg и Hudi будет осуществляться извне, Улаг пояснил, что по умолчанию Microsoft Fabric отдает предпочтение Delta и Apache Parquet, формату файла данных, ориентированному на столбцы.

    «Мы внедрили в Fabric наш родной формат, по умолчанию это Delta и Parquet», — сказал он. «Это важно, потому что это не внешняя таблица. Это не то, что, если данные существуют, вы связываете их с Fabric. Вы строите хранилище данных, и по умолчанию данные находятся в Delta-Parquet. Это огромный шаг вперед. потому что нам пришлось провести множество оптимизаций производительности, чтобы убедиться, что производительность, которую мы можем обеспечить на Delta Parquet, является лучшей в отрасли».

    Несмотря на то, что Fabric сможет связываться и получать доступ к данным, хранящимся в Delta-Parquet, а со временем и в других форматах, в других местах, выполнение всего этого в Fabric дает преимущества в плане затрат и производительности.

    Microsoft Fabric использует виртуализированное озеро данных под названием OneLake, которое построено на базе существующей Azure Data Lake Storage Gen 2, но добавляет ярлыки к данным в AWS S3 и, вскоре, Google Хранилище. В Microsoft Fabric есть семь основных рабочих нагрузок: Data Factory (соединители), Synapse Data Engineering (авторская разработка для Apache Spark), Synapse Data Science (создание моделей ИИ), Synapse Data Warehousing, Synapse Real Time Analytics, Power BI и Data Activator ( мониторинг данных и инициирование уведомлений и событий).

    По словам Улага, преимущества работы в Delta заключаются в совмещении этих рабочих нагрузок.

    «Вы используете Power BI в хранилище данных Synapse, а Power BI больше не отправляет SQL-запросы в Synapse в структуре», — сказал он. «Он просто переходит в Onelake и загружает данные в память, что затем дает клиентам значительное ускорение производительности, поскольку в процессе выполнения SQL-запросов больше нет уровня SQL. Power BI просто работает с данными в Onelake, потому что это его собственный формат. . Это также огромное снижение затрат для клиентов, поскольку не нужно платить за SQL-запросы».

    Microsoft, называющая свой продукт Fabric, обязательно внесет некоторую путаницу, потому что — к добру или к худу — отрасль объединилась вокруг концепции фабрики данных, независимой от продуктов поставщиков.

    Роберт Танарадж, директор Gartner по управлению данными, объяснил, что организации, которые находят слишком много копий данных, слишком много разрозненных хранилищ и слишком мало общей информации о характере этих данных, совместно используемых согласованным образом, могут найти привлекательной концепцию структуры данных.

    «Это ориентированный на человека подход к анализу данных и искусственному интеллекту. Используя структуру данных, организации стремятся получить корпоративное представление о том, что именно происходит в моих системах, в моих бизнес-процессах и в разных командах», — сказал он.

    По оценкам Gartner, к 2025 году главные директора по данным и аналитике будут использовать структуру данных как «движущий фактор в успешном решении проблемы сложности управления данными, что позволит им сосредоточиться на приоритетах цифрового бизнеса, создающих добавленную стоимость».

    Несмотря на то, что продукты Microsoft Fabric действительно могли обеспечивать преимущества в производительности и стоимости за счет создания ярлыков для данных, а не их перемещения, эти преимущества не сохранялись при доступе к данным за пределами среды Fabric.

    Пользователям, уже работающим с Iceberg или Hudi, нужно будет перейти, чтобы воспользоваться преимуществами Fabric в плане затрат и производительности.

    «Возможно, вы сможете создавать ярлыки, но из соображений производительности вам придется мигрировать. Одно дело убедиться, что вы подключили все разъемы, и совсем другое — начать работу в масштабе моего предприятия. Это совершенно новая игра. Может ли это сработать? Да, может. Будет ли этого достаточно? Я так не думаю», — сказал Танарадж. Регистр.

    Достаточно сказать, что Microsoft — не единственный поставщик, желающий стать центром управления корпоративной стратегией обработки данных, состоящей из множества движущихся частей. Снежинка, Клаудера и Google уже заявили о своих правах.

    Как доминирующая облачная платформа, AWS использует собственный подход. Ганапати Кришнамурти, вице-президент AWS по аналитическим услугам, сказал, что универсальный подход к аналитике в конечном итоге приводит к компромиссам.

    В качестве альтернативы «Amazon S3 предлагает интеграцию со всеми сервисами AWS, обеспечивая проверенную стабильность и безопасность в любом масштабе».

    Кришнамурти сказал, что клиенты Amazon S3 могут использовать открытый формат данных по своему выбору, включая Apache Iceberg, Hudi и Delta Lake. «AWS поддерживает все три основных формата таблиц и предоставляет рекомендации, которые помогут клиентам выбрать формат открытых таблиц в зависимости от их уникальных потребностей», — сказал он.

    Он утверждал, что Redshift предлагает в пять раз лучшее соотношение цены и качества, чем другие облачные хранилища данных.

    Google отказался от возможности выдвинуть собеседника.

    По словам Танараджа из Gartner, хотя Microsoft угрожает перевернуть рынок корпоративных продуктов для обработки данных, еще слишком рано судить о том, оправдает ли Fabric, доступная в настоящее время только в предварительной версии, ожидания клиентов.

    «Пройдет еще 12 месяцев, прежде чем этот продукт станет общедоступным. Вам нужно посмотреть, будет ли доказан уровень зрелости этого продукта, когда системные интеграторы зависят не только от Microsoft. Просто помните об этом. Если возможно, сделайте прототип, изучите и попробуйте. Взгляните из первых рук, но пока не прыгайте», — сказал он.

    Ян Коули, руководитель отдела обработки данных в консалтинговой компании Ensono, сказал, что решение Microsoft выбрать Delta вместо Iceberg было просто признаком предпочтения клиентов и зрелости формата. По его словам, со временем будут поддерживаться и другие форматы.

    Но план поставщика по поддержке разрозненного набора технологий с открытыми форматами может в конечном итоге привести к консолидации рынка на основе основных поставщиков облачных услуг для пользователей, сказал он.

    «Он выглядит стреловидным, потому что пять лет назад они были очень фрагментированы. Но если подумать, все эти платформы имеют какой-то эквивалент Spark, мы используем более распространенные типы файлов с открытым исходным кодом, такие как Iceberg и Parquet.

    «Они разделены, но все больше и больше они движутся в одном направлении. В конечном итоге произойдет какое-то объединение».

    В конце концов, ткань, которая была разработана для объединения различных источников данных и сред аналитики, может стать нитью, которая приведет к большей консолидации на рынке. ®

    Предыдущая статьяSAP признает, что HANA Cloud создает проблемы с мультивалютностью
    Следующая статьяAT&T продает Google Pixel Fold за 900 долларов
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.