Генеральный директор TileDB Ставрос Пападопулос, получивший венчурные инвестиции в размере 34 миллионов долларов для своей молодой компании по работе с базами данных, не планирует возвращаться в скважину в ближайшее время.
Бывший коллега пионера баз данных Майкла Стоунбрейкера в Массачусетском технологическом институте Пападопулос оптимистично настроен в отношении того, что доходы от систем баз данных, разработанных на основе многомерных массивов, превысят затраты настолько, что им снова не придется платить венчурным капиталистам.
«Я очень консервативный генеральный директор», — сказал он. Регистр. “Предыдущий [$15 million] раунд длился три года, хотя предполагалось, что он продлится 18 месяцев. Экономическая ситуация сейчас ужасна, а инвесторы более консервативны, чем раньше.
«Финансирование может длиться бесконечно, потому что у нас есть доходы: мы не собираем деньги на звездах GitHub, мы собираем деньги на реальных цифрах. Согласно нашим прогнозам, у нас есть большой доход. Если бы мы были осторожны, мы могли бы стать прибыльными очень, очень быстро. Сначала я доберусь до прибыльности, а затем приму решение, хотим ли мы более агрессивно развертывать или мы хотим органического роста».
За последние пару десятилетий был предпринят ряд согласованных усилий по переосмыслению базы данных и отходу от вездесущих реляционных систем. Объектно-ориентированные системы с широкими столбцами, документами, графами и ключами значений соперничают за рынки, на которых СУБД не работают. Представление Пападопулоса о системе с многомерным массивом в качестве первоклассной структуры данных направлено непосредственно на аналитические проблемы.
Преимущество подхода с использованием массивов состоит в том, что он представляет собой общую систему, из которой, например, реляционные или векторные системы становятся частными случаями, сказал он. TileDB надеется предоставить математическое доказательство того, что модель массива является обобщением реляционной модели; по сути, модель массива включает в себя реляционную модель.
Например, базы данных документов, такие как системы MongoDB и Couchbase, стали популярными среди разработчиков благодаря их бессхемному или упрощенному подходу, упрощающему запуск и работу систем. Но за аналитику приходится платить, утверждает Пападопулос.
«Вы можете хранить изображение в базе данных документов, такой как MongoDB, но хранить его как большой двоичный объект; вы не собираетесь хранить каждый пиксель отдельно», — сказал он. «Таким образом, это изображение не готово к анализу. В хранилище объектов вы не можете его разрезать. Вы не можете создавать эти изображения с разными разрешениями, чтобы иметь возможность увеличивать и уменьшать масштаб и делать это в интерактивном режиме с облаком. .
«Изображения, с которыми мы работаем, имеют размер в терабайтах. В базе данных документов вам придется загрузить весь файл локально, но у вас может не хватить памяти и места для хранения данных для этого. TileDB хранит его в структурированном виде. , который разбит на плитки и проиндексирован, поэтому вы можете разрезать любую часть и выполнять распределенную аналитику — для этого вам не нужны тонны памяти».
TileDB родился во времена, когда Пападопулос работал научным сотрудником в лаборатории Intel при Массачусетском технологическом институте и занимался поддержкой научных исследований. Основное внимание по-прежнему уделяется наукам о жизни, где множество рентгеновских снимков, компьютерной томографии, геномных данных и транскриптов играют важную роль в TileDB, но есть также возможности в инженерной диагностике и финансовых услугах, сказал он.
«Сегодня люди решают эти проблемы следующим образом: они либо объединяют 10 различных инструментов, которые полностью отличаются друг от друга: реляционную базу данных, базу данных «ключ-значение», специальные файлы и форматы.
«А затем они нанимают большие команды инженеров по данным и создают поверх них каталоги, уровни контроля доступа и уровни журналирования. По сути, они заново изобретают базу данных, но для управления другими базами данных, и это то, что они называют современный стек данных. Есть разные варианты одного и того же, но они скрывают проблему: вместо того, чтобы вернуться к корням и исправить эту проблему в ее основе, они ее взламывают».
TileDB поставляется с открытым исходным кодом и в коммерческой версии. В отличие от так называемых облачных систем хранилищ данных, популярность которых резко возросла за последнее десятилетие, включая Snowflake и AWS Redshift, TileDB взимает фиксированную лицензионную плату в зависимости от количества мест и объема данных.
Пападопулос утверждал, что модель потребления с оплатой по мере использования для анализа данных может создать конфликт между отделами продаж, которые хотят, чтобы потребление росло, и командой инженеров, пытающейся сделать систему более эффективной, и в результате потенциально сократить потребление.
Энди Павло, доцент кафедры баз данных в Университете Карнеги-Меллона, сказал, что концептуальная основа TileDB имеет определенные преимущества. «Многомерные массивы — единственная модель данных, которую вы делаете нет хотите хранить в собственной реляционной СУБД. Хранилище строк сканирует данные «по горизонтали», хранилище столбцов сканирует данные «вертикально».
«Но некоторые шаблоны доступа к запросам к массиву выполняют произвольные обходы по разным измерениям. Поэтому вам нужен специализированный движок, такой как TileDB, для их обработки. Но ни один крупный поставщик облачных услуг не предлагает услугу СУБД размещенного массива, а это означает, что они не видят значительного рынка. “
Павел отметил, что в SQL:2023 – девятом издании повсеместного языка запросов ISO – добавлена поддержка многомерных массивов (SQL/MDA). TileDB поддерживает SQL.
Однако базы данных массивов не были необходимы для векторной аналитики, которая стала модной из-за растущего интереса к большим языковым моделям в машинном обучении.
«Векторы — это просто одномерные массивы. В них нет ничего особенного; реляционные СУБД поддерживают их на протяжении десятилетий. В векторные БД добавлены индексы для быстрого (приблизительного) поиска ближайших соседей», — сказал Павел, который также является генеральным директором базы данных. компания по управлению производительностью OtterTune. ®