Видение Tabular «Айсберг» подкреплено венчурным финансированием

    0
    2


    Прошел год с тех пор, как появилось множество продавцов, включая Snowflake, Googleа Cloudera поддержала формат таблиц Apache Iceberg, пообещав перенести аналитику в данные, где бы они ни находились.

    Райан Блю был соавтором формата таблицы, работая на Netflix, а Tabular – компания, которую он впоследствии основал на ее основе – только что завершила раунд финансирования серии B на сумму 26 миллионов долларов под руководством Altimeter Capital при участии Andreessen Horowitz и Zetta Venture Partners. .

    Разговаривая с РегистрПо словам Блу, цель Tabular — сделать Iceberg своего рода нейтральным «хранилищем баз данных» между хранилищем BLOB-объектов и поставщиками средств анализа данных.

    За десять лет, прошедших с тех пор, как Сноуфлейк и другие стали пионерами в разделении хранилища и вычислений, чтобы пользователи могли независимо масштабировать их в облаке, рынок облачной аналитики и платформ данных, опирающихся на этот подход, превратился в поле битвы с высокими ставками.

    На прошлой неделе Databricks получила 500 миллионов долларов в рамках финансирования серии I, оценив его в номинальные 43 миллиарда долларов, в то время как Snowflake была оценена в ошеломляющие 120 миллиардов долларов вскоре после IPO в 2020 году.

    В то же время на рынке не всегда присутствует чувство нейтралитета, когда речь идет о предоставлении аналитических механизмов для доступа к данным за пределами систем поставщика. Обещание есть. В прошлом году Снежинка, Клаудера и Google присоединились к Iceberg, проекту Apache с открытым исходным кодом. С тех пор к ним присоединились AWS и IBM. Идея состоит в том, что пользователи могут использовать аналитические механизмы Snowflake для доступа к данным, хранящимся за пределами портфеля продуктов компании, в формате таблицы Iceberg. Пользователи платят Snowflake только за вычисления, а не за хранение или перемещение данных.

    По другую сторону забора Salesforce, SAP и Microsoft выстроились в ряд за формат таблиц Delta Lake, разработанный Databricks, но с открытым исходным кодом для Linux Foundation. Чтобы внести ясность, SAP и Microsoft заявили, что со временем поддержат Iceberg, а Databricks ранее в этом году объявила о поддержке Iceberg и другого формата таблиц — Apache Hudi. Даже Oracle заявила, что ее хранилище данных HeatWave на базе MySQL будет поддерживать эти форматы таблиц в будущем, начиная с Iceberg и Delta Lake. Но для Blue это вопрос акцента и того, кому пользователи будут доверять, чтобы обеспечить максимальную производительность.

    «Хранилище как хранилище объектов — это просто глупо», — сказал нам соавтор Iceberg. «Это не значит, что они не проделывают много работы, чтобы сделать S3 довольно удивительным продуктом, но он глуп в том смысле, что не понимает данные и не выполняет задачи, подобные базам данных. никогда не сжимает ваши файлы данных; он не смотрит на временную метку строки и не удаляет ее, если она становится слишком старой. Это задачи для уровня хранения базы данных. Табличное — это универсальное хранилище базы данных. Мы намеренно хотим работать с любая вычислительная машина сверху».

    Блу добавил: «Представьте, что вы используете двух поставщиков, Databricks и Snowflake. Они оба поддерживают Iceberg, по крайней мере, для обмена. Вы можете читать таблицы Iceberg, хранящиеся в Databricks. Но доверяете ли вы Databricks, чтобы раскрыть это правильным способом, который будет сделать Snowflake действительно эффективным? По сути, каждый клиент, с которым я разговаривал, этого не делает.

    «У нас есть поставщики, которые конкурируют не только за рабочие нагрузки, наборы данных и все, что использует этот набор данных, но и за хранение всех ваших данных: всего вашего озера или всего вашего склада, или чего бы то ни было, во что эти две вещи объединились. Это действительно беспокоит, потому что поставщик баз данных всегда старается сделать это хранилище – и свои вычислительные возможности – лучшими. Нам действительно необходимо разделить эти уровни, и именно здесь на помощь приходит Tabular».

    Из-за проблем с производительностью и удобством использования, присущих таблицам Apache Hive в больших и требовательных средах озер данных, Райан и его коллега из группы данных Netflix Дэн Уикс в ноябре 2018 года пожертвовали Iceberg Apache Software Foundation как проект с открытым исходным кодом. Вместе они основали Tabular в 2021.

    Ранее в этом году Tabular выпустила свой первый продукт — систему «безголового» хранилища данных. Пользователи могут начать бесплатно с объемом данных до 1 ТБ, после чего компания взимает плату в зависимости от объема данных, находящихся под управлением.

    По своей архитектурной схеме Tabular находится между Iceberg и популярными аналитическими вычислительными системами, включая Apache Spark, Trino, Python и Snowflake, обеспечивая такие услуги, как прием, оптимизация, каталогизация и управление доступом на основе ролей.

    С помощью Iceberg обещают распутать хранение и вычисления с точки зрения бизнеса и экономики, а также технологий, чтобы предоставить пользователям большую свободу в выборе нужных инструментов, одновременно оптимизируя затраты.

    Блу отметил, что, хотя Snowflake, возможно, и была пионером в разделении хранилища и вычислений, они все еще были вертикально интегрированы в ее стек.

    «Это их хранилище и их вычислительные мощности, и вам придется изучить их пакет, чтобы использовать его», — сказал Блу. «Айсберг меняет правила игры, потому что вы действительно можете совместно использовать хранилище внутри и между разными движками. И это трансформация, которая происходит сегодня».

    Со своей стороны, Databricks отрицает, что жестко контролирует развитие формата Delta Lake, и заявила, что приветствует введение других форматов. Разговаривая с Регистр В конце прошлого года генеральный директор и соучредитель Али Годси заявил, что Iceberg, Hudi и Delta схожи и, вероятно, будут приняты большинством поставщиков. Но он утверждает, что у поставщиков хранилищ данных не будет стимула предлагать оптимальную поддержку стандартов, поскольку они зарабатывают деньги на хранении данных в своих системах.

    Каким бы ни был результат растущего интереса к форматам таблиц для обеспечения экономического разделения хранения и вычислений, Tabular вышла на рынок, который внезапно оказался в центре внимания некоторых крупнейших мировых поставщиков программного обеспечения. Ему просто нужно будет посмотреть, достаточна ли общая сумма инвестиций в 37 миллионов долларов, чтобы выжить в аквариуме с акулами. ®

    Предыдущая статьяПрограммное обеспечение для управления устройствами Apple Jamf Pro 11 представлено на JNUC 2023
    Следующая статьяIntel раскрывает подробности о Meteor Lake, о том, как будут производиться будущие процессоры, и о его технологиях.
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.