Rockset надеется сократить время, затрачиваемое на потоковую аналитику, с помощью SQL

29.08.2021

[ad_1]

Компания Rockset, работающая с аналитическими базами данных в реальном времени, представила SQL-преобразования для потоковой передачи данных вместе с методом объединения данных, который, по его словам, предложит пользователям снижение затрат на хранение и выполнение запросов.

Эксперты по базам данных заявили, что снижение затрат будет полностью зависеть от варианта использования, но приветствовали введение вездесущего языка запросов в мир потоковых баз данных.

Rockset – коммерческая база данных, основанная на RocksDB. Он использует модель документа с вторичной СУБД и называет себя «базой данных индексации в реальном времени». Это означает, что база данных индексирует все данные, поступающие в систему, в режиме реального времени с задержкой от одной до двух секунд, и все эти данные затем становятся видимыми для запросов, приложений и информационных панелей.

Первым в списке новых функций для базы данных хранилища документов является поддержка преобразований SQL для потоковой передачи данных по мере их поступления, что, по заявлению компании, «устранит время и усилия, необходимые для поддержки сложных конвейеров данных в реальном времени».

«Иногда, когда метрики не могут быть вычислены напрямую, и вам нужно их преобразовать – например, временные метки, поступающие в виде строк. Поскольку вы просто используете SQL, вы можете выполнять это преобразование своих данных по мере их поступления, а не непосредственно перед или после объединения “, – сказал соучредитель и генеральный директор Rockset Венкат Венкатарамани. .

Между тем, Rockset предлагает возможность использовать SQL для предварительной агрегации потоковых данных по мере их приема, что он назвал «накоплением» и заявила, что снижает стоимость хранения и запроса данных в 10–100 раз.

«Вместо того, чтобы хранить все необработанные данные о расценках и выполнять всевозможные очень дорогие пакетные аналитики, накопления позволяют вам во время потоковой передачи данных настраивать все ваши параметры и показатели с помощью SQL-запроса», – сказал Венкатарамани.

Он добавил, что Rockset создала механизм запросов SQL на C ++ с нуля, но вместо того, чтобы заставить его работать с таблицами, «нам пришлось научить механизм SQL заставить его работать с потоками».

Энди Павло, доцент кафедры базы данных в Университете Карнеги-Меллона, сказал, что преобразование данных в прямом эфире означает, что пользователям нужно запрашивать только подмножество данных в потоке: преобразования позволяют им фильтровать данные до того, как они попадут в систему хранения и индексирования Rockset. .

«Это повысит производительность запросов к этим данным, потому что СУБД должна обрабатывать меньше данных», – сказал Павло, который также является основателем и генеральным директором OtterTune, системы настройки базы данных, созданной в рамках университетского проекта.

«Разрешить своим пользователям определять эти конвейеры через SQL имеет смысл. Наступил 2021 год, и я не думаю, что компания должна тратить время людей на то, чтобы заставлять их изучать другой язык запросов для использования своего продукта, когда все уже знают SQL».

По его словам, экономию затрат в результате «агрегирования» невозможно предсказать без конкретных вариантов использования, поскольку это будет зависеть от рабочих нагрузок и запросов. «Но очевидно, что должно быть сокращение затрат пользователей, если они в конечном итоге будут хранить меньше ненужных данных в Rockset».

Менеджер по исследованиям IDC Эми Мачадо сказала, что преобразование данных в потоке может упростить внедрение для инженеров по обработке данных и программного обеспечения. «Мы наблюдаем нехватку разработчиков вкупе с длинным списком запросов на разработку приложений. Устранение сложности с помощью стандартных SQL-запросов вне Kafka – без необходимости прикасаться к Kafka – может помочь предприятию ускорить развертывание сценариев использования потоковой передачи. Тот, кто знает SQL теперь может включать непрерывные запросы вместо пакетных или одноразовых запросов, как это было бы в реляционной базе данных с хранящимися данными “.

И все же у Rockset нет рынка. По словам Мачадо, продукт будет конкурировать с платформой Confluent ksqlDB, которая начиналась как KSQL еще в 2017 году.

«Рынок потоковой передачи данных является относительно незрелым, и инвестиции в технологии были сильно смещены в сторону пакетной обработки данных. По мере роста спроса на сценарии использования потоковой передачи данных будет расти и количество поставщиков в этой сфере, и Rockset вмешивается, добавляя потоковую обработку. Layer к своей облачной аналитической платформе “.

Сценарии использования существуют во всех вертикалях, включая триггеры базы данных, сбор данных об изменениях, потоки кликов или данные датчиков Интернета вещей. «Компании, которые сосредоточены на точках входа с низким кодом и помогают компаниям избежать интенсивного труда, связанного с написанием конвейеров данных, выиграют на этом развивающемся рынке», – сказал Мачадо. ®

[ad_2]

ОСТАВЬТЕ ОТВЕТ Отменить ответ