Анализ Подтвердив на этой неделе поддержку форматов таблиц Apache Iceberg и Hudi, Databricks стремится расширить привлекательность своего подхода к озерам данных, укрепляя свое доминирование в машинном обучении для расширения рабочих нагрузок типа хранилища данных.
Между тем, конкурирующая компания Snowflake также представила обновления Iceberg Tables для дальнейшего устранения разрозненности данных.
Обе компании утверждают, что поддерживают рабочие нагрузки в стиле озера неструктурированных данных, а также отчеты и аналитику хранилища данных на основе SQL в одной и той же системе, а также используют свои аналитические механизмы для обработки данных, хранящихся в другом месте.
В Delta Lake 3.0 компания Databricks, которая нарезала зубы, разрабатывая Apache Spark, когда Hadoop был королем, запустила то, что она называет универсальным форматом (UniForm), предназначенным для того, чтобы данные, хранящиеся в Delta, читались так, как если бы это были Apache Iceberg или Apache Hudi. .
За несколько дней до ежегодной вечеринки продавца в Сан-Франциско на этой неделе, сказал вице-президент по маркетингу Джоэл Минник. Регистр что Delta была «самой давно существующей, большинство предприятий приняли формат Lakehouse с точки зрения открытого исходного кода».
Он отметил, что все три формата таблиц основаны на формате данных Apache Parquet: «Разница в том, что каждый из этих форматов создает похожие, но не одинаковые метаданные», влияющие на то, как данные выражаются в приложениях и аналитических рабочих нагрузках. , он сказал.
Результатом является некоторая несовместимость между Delta, Hudi и Iceberg. Надеясь упростить проблему для клиентов, Databricks представила свой универсальный формат или сокращенно UniForm.
Минник сказал, что UniForm автоматически генерирует метаданные для всех трех форматов и автоматически понимает, какой формат пользователи пытаются читать или записывать.
«Затем он автоматически выполнит перевод для пользователя в соответствующие метаданные, которые ожидает система. Теперь, если вы строите для Delta Lake, вы строите для всех, и вы можете устранить всю эту сложность, связанную с необходимостью понимать, какой формат Lakehouse система ожидает и поддерживает различные коннекторы для выполнения этих переводов», — сказал он.
Apache Iceberg — это формат открытых таблиц, предназначенный для крупномасштабных аналитических рабочих нагрузок с поддержкой механизмов запросов, включая Spark, Trino, Flink, Presto, Hive и Impala. Последние пару лет он набирал обороты, после Snowflake, Google, и Cloudera объявили о своей поддержке в прошлом году. В игре также участвуют более специализированные игроки, в том числе Dremio, Starburst и Tabular, который был основан командой проекта Iceberg, когда он разрабатывался в Netflix.
Фактически, генеральный директор и соучредитель Databricks Али Годси сказал Регистр В прошлом году три формата таблиц — Iceberg, Hudi и Delta — были похожи, и все они, вероятно, будут повсеместно приняты большинством поставщиков. В этом году SAP и Microsoft объявили о поддержке Delta, но обе заявили, что со временем смогут обратиться к данным в Iceberg и Hudi.
Ледяной холод
Покровитель Iceberg тем временем не стоял на месте. В своего рода состязании корпоративной аналитики данных Snowflake решила провести свою ежегодную встречу на той же неделе, что и Databricks.
Облачное хранилище данных и компания-платформа, которая когда-то оценивалась в ошеломляющие 120 миллиардов долларов, объявила о частном предварительном просмотре своих таблиц Iceberg Tables, которые также обещают охватить все разрозненные хранилища, хотя и без поддержки Hudi и Delta.
В нем говорилось, что организации могут работать с данными в своем собственном хранилище в формате Apache Iceberg, независимо от того, управляется ли хранилище Snowflake, но использовать инструменты управления производительностью и управления поставщика.
Snowflake также анонсировала общедоступную предварительную версию своей платформы Native App Framework на AWS. Идея заключается в том, что разработчики могут создавать и тестировать собственные приложения Snowflake, чтобы использовать данные на своем рынке. По его словам, уже доступно более 25 приложений.
Хён Парк, генеральный директор и главный аналитик Amalgam Insights, сказал, что в мире озер данных идет битва между форматами Iceberg, Hudi и Delta.
«Многие третьи стороны работают с Iceberg, считая, что это самый простой формат данных для работы, и потому что они откровенно боятся расширять возможности Databricks», — сказал он. Регистр.
Однако переход Databricks на поддержку всех трех позволит предлагать услуги клиентам Iceberg, в том числе тем, кто использует Snowflake или Cloudera.
«Это разумный способ стать умнее всех существующих форматов озер данных», — сказал он.
Парк считает, что Iceberg технически выигрывает с точки зрения принятия, но сталкивается с проблемами с точки зрения производительности.
Между тем именно ожидания инвесторов подталкивают Snowflake к расширению в большей степени, чем что-либо еще. «Оценка Snowflake и ожидания, возлагаемые на нее со стороны акционеров, означают, что она пытается полностью использовать данные, будь то платформа для разработки приложений, платформа машинного обучения или что-то среднее между ними», — сказал Пак.
Майк Гуалтиери, главный аналитик Forrester, не был впечатлен продвижением Snowflake в сторонние приложения. «Я не думаю, что это убедительно, потому что вся эта концепция приложений, которые просто сосредоточены на данных, невероятно легковесна и тривиальна по сравнению с полноценными прикладными решениями, которые нужны предприятиям».
Но Snowflake делает успехи в том, чтобы выглядеть как озеро данных, что было многообещающе для поставщика и клиентов, предпочитающих платформу, добавил он.
За последние пару лет границы между озерами данных и хранилищами данных слились. Databricks разработала концепцию «озерного домика», предлагая SQL и BI-подобные запросы на своей платформе, в то время как Snowflake, например, начала поддерживать неструктурированные данные.
«Происходит столкновение этих двух технологий. Наиболее желательным результатом для предприятий будет унифицированная платформа. Вот почему Snowflake не может просто сидеть и говорить: «О, у нас отличное хранилище данных, вроде Teradata». ‘ Они должны сказать, что вы можете обрабатывать неструктурированные данные и машинное обучение, а когда этих возможностей не хватает, они заполняют эти пробелы за счет партнерских отношений», — сказал Гуалтьери.
Но хотя предприятиям может понадобиться единая платформа, ожидания пользователей и технология помешают созданию единого рынка в ближайшем будущем, сказал он.
«Teradata и Snowflake: у них есть некоторые возможности машинного обучения, и вы можете многое с ними сделать. Databricks может иметь в пять раз больше возможностей. Но если вы возьмете пользователя BI, привыкшего получать отчеты в Spotfire или Tableau, и он сделает запрос, они ожидают мгновенных результатов, а не ждут трех или более секунд, которые могут потребоваться для выполнения запроса к озеру данных. С точки зрения функций и технических возможностей между ними есть пробелы, поэтому унификация не может произойти сразу», — Гуалтьери. сказал.
На данный момент многие организации будут продолжать использовать оба стиля управления данными и аналитики. И Snowflake, и Databricks имеют впечатляющий список многонациональных клиентов, в том числе Kraft Heinz, Comcast и EDF Energy для первого, в то время как последний претендует на Toyota, Shell и AT&T, в частности, также является клиентом Snowflake.
По словам Гуалтьери, обеим сторонам озера данных и хранилища данных может потребоваться три года, чтобы создать полный набор возможностей, предлагаемых другой стороной. Между тем, конфликт между двумя вендорами, скорее всего, продолжится. ®