Инструменты данных с открытым исходным кодом Trino и dbt объединяют усилия

    0
    10


    Два продукта SaaS, ориентированные на технологии управления данными и аналитики с открытым исходным кодом, объединили свои усилия, чтобы привлечь пользователей, которые хотят моделировать данные и управлять ими для обработки.

    Партнерство между dbt и Starburst направлено на обслуживание большого рынка, помогая готовить данные для аналитики, не перемещая их, сказал один аналитик. Регистр.

    Starburst — это компания, построенная на базе Trino (ранее Presto) с открытым исходным кодом, проекта аналитики и озера данных, созданного в среде Facebook Hadoop, в сообщество которой входят AWS, Salesforce и Pinterest. dbt, с другой стороны, — это компания, построенная вокруг одноименного инструмента с открытым исходным кодом, который помогает организациям моделировать, управлять и прогнозировать преобразования данных, необходимые для сложной аналитики в масштабе Интернета. Среди его клиентов — фондовый рынок Nasdaq, инжиниринговая компания Vestas и технологический гигант Hubspot.

    Соучредитель Starburst Мэтт Фуллер сказал, что dbt позволяет инженерам-аналитикам моделировать данные на языке более высокого уровня, но экспортирует SQL для управления данными в базе данных или озере данных, таком как Starburst.

    «Это действительно дополняющая технология, — сказал он. Регистр.

    Starburst также позволяет пользователям анализировать данные за пределами своего озера данных с помощью SQL, включая такие системы, как MySQL или PostgreSQL, а также нереляционные системы, такие как MongoDB, Kafka и Elastic.

    Поскольку клиенты уже используют Trino и dbt вместе, имело смысл интегрировать их в продукты компаний SaaS — dbt Cloud для dbt и Starburst. Galaxy.

    «Люди раньше использовали [dbt Core] с Galaxyно это немного громоздко, потому что Galaxy является полностью управляемым предложением, а dbt Core имеет открытый исходный код, поэтому вам придется управлять им самостоятельно. С этим объявлением теперь вы можете использовать оба продукта, которые являются управляемыми предложениями, вместе, что раньше было невозможно», — сказал он.

    Аналитик Кевин Петри, вице-президент по исследованиям Eckerson Group, сказал, что комбинированная услуга нацелена на большой рынок.

    «Корпоративные среды более распределены, чем когда-либо, а данные хранятся локально и в двух или более облаках. Это затрудняет перемещение и подготовку данных для аналитических проектов. Используя федеративный механизм запросов Starburst вместе с механизмом преобразования dbt, данные для аналитики без необходимости их перемещения, поэтому они могут анализировать более широкий массив данных, где бы они ни находились, для данного аналитического проекта.

    «Они могут использовать Starburst для запросов к распределенным данным и dbt для их очистки, моделирования и документирования без необходимости их обработки на разных платформах».

    Ряд поставщиков хранилищ данных и аналитики заинтересовались тем, чтобы предлагать пользователям возможность применять аналитику к данным, не перемещая данные в хранилище данных или озеро данных. Teradata работала со Starburst над адаптацией Trino для этой цели в своем продукте QueryGrid в 2020 году.

    В последнее время, Google BigQuery, Snowflake и Cloudera объявили о переходе на Apache Iceberg, формат таблиц данных с открытым исходным кодом от Netflix.

    У Starburst также есть коннектор Iceberg, но Фуллер утверждал, что их подход был более открытым, чем у поставщиков хранилищ данных, когда они применялись к хранилищам данных — недавно придуманной концепции объединения озер данных и хранилищ данных.

    «Я рад, что они, наконец, поняли ценность Iceberg, но я не думаю, что они понимают это правильно», — сказал Фуллер. «Iceberg и Trino — полностью независимые проекты с открытым исходным кодом. Вместе они создают по-настоящему открытый источник данных. Если вы хотите использовать их оба вместе в качестве коммерческого предложения, есть Starburst. Galaxy и Tabular, которая стоит за Iceberg. Отличие Snowflake от других подходов в том, что у них есть ограничения. Например, в некоторых случаях каталог таблиц Iceberg недоступен для других инструментов. Всегда есть небольшой угол блокировки».

    Петри сказал нам: «Предприятия хотят консолидировать как можно больше данных на облачных платформах, таких как Snowflake, BiqQuery или Databricks. Но плотность данных и сложность миграции не позволяют им перемещать все на одну платформу. Поэтому я думаю, что многие среды будут использовать обе платформы. консолидированные платформы, такие как Snowflake, и механизмы запросов, такие как Starburst или Dremio, для поддержки их аналитических проектов». ®

    Предыдущая статьяКак удалить Snapchat на iPhone
    Следующая статьяПросматривайте тайно с защитой отпечатков пальцев в Chrome и Samsung Интернет
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.