Kubernetes тоже обнаруживает данные °

От

07.10.2021

Спонсируемый Более полутора десятилетий люди говорили о большое количество данных и атрибуты, которыми он обладает на современном предприятии.

Повторяйте вместе с нами, потому что вы знаете три V больших данных: Объем, Скорость, а также Разнообразие, к которому некоторые впоследствии добавили Достоверность и один или два Ценить. Возможно, это немного расширяет суть. Но одна вещь, которой не хватает во всем этом V-разговоре о встроенных битах, каскадно поступающих в центр обработки данных, – это тот простой факт, что если вы не можете найти данные, это не принесет вам никакой пользы.

Нам нужно V-слово для «находимости», и мы не смогли придумать его, почесав голову некоторое время, и не смогли найти подходящего в мировых онлайн-тезаурусах, что забавно, если задуматься. Видимость кажется слабее того, что мы ищем, поэтому обнаружение данных, тема последней статьи в этой серии из четырех частей, посвященной Kubernetes в корпоративном центре обработки данных, будет иметь значение.

И что касается Red Hat, обнаружение данных – это не только выяснение того, какие данные у вас есть, и поиск нужных данных для решения конкретной проблемы или создания определенного алгоритма, но и установление того, что наборы данных не полны мусора, который может радикально искажение результатов.

Глубокая чистка

«Наука о данных – это разрушительная сила, значение которой приобретает все большее значение», – объясняет Пит Брей, директор по маркетингу служб данных в Red Hat, чья платформа OpenShift становится пробным камнем для Kubernetes коммерческого уровня.

«Крупные компании осознают это, и ни один бизнес не останется без внимания, и на самом деле их конкурентоспособность в определенной степени будет зависеть от науки о данных. И давайте посмотрим правде в глаза, на предприятии много науки о данных используется в маркетинговых целях. Так компании взаимодействуют со своими клиентами. Но в зависимости от того, кого вы спросите, от 40 до 50 процентов – некоторые говорят, что 80 процентов – времени, которое специалисты по данным тратят в своей работе, просто на поиск нужных данных, а затем, как только они их найдут, чистота данных станет большой проблемой. . Специалистам по данным нужно больше времени уделять алгоритмам и машинному обучению и меньше беспокоиться о том, чтобы найти нужные данные и убедиться, что они чистые ».

Это была постоянная проблема при обработке данных, и в действительности она не сильно отличалась три десятилетия назад с появлением Teradata и ее конкурентов в развивающемся бизнесе хранилищ данных, когда кошмар извлечения / преобразования / загрузки выполнялся массовыми партиями из исторических данных. записи реляционной базы данных. Это действительно принесло пользу многим компаниям, но при огромных усилиях. Ситуация с обнаружением и очисткой данных не улучшилась для предприятий с появлением более десяти лет назад инфраструктуры распределенной обработки MapReduce и ее базовой распределенной файловой системы Hadoop, которая позволяла обрабатывать большие объемы данных, но приводила к гораздо более медленным запросам, которые выполнялись пользователями. привыкший. Мы вернулись в пакетный режим (и пришлось это сделать, учитывая размер данных).

Специалистам по данным нужно больше времени уделять алгоритмам и машинному обучению и меньше беспокоиться о том, чтобы найти нужные данные и убедиться, что они чистые.

«Скорость изменения данных ускоряется, – говорит Брей. «Хотя ETL и пакетная загрузка все еще происходят, мы наблюдаем все больше и больше анализа данных в реальном времени, и это также меняет характер обнаружения данных. Мы больше не думаем только о записях, файлах и объектах. Нам нужно беспокоиться об извлечении данных из больших пожарных шлангов и множества маленьких соломинок ».

С этой целью были разработаны методы маркировки данных и каталогизации, часто с использованием методов машинного обучения, которые могут автоматически создавать метаданные о данных, чтобы их было легче найти в будущем.

«Большинство умных организаций стараются делать это автоматически», – объясняет Брей. «Здесь Kafka и другие потоковые приложения анализируют входящие потоки и запускают определенные процессы ниже по потоку на основе тегов, связанных с потоками.

«Это очень важный первый шаг. Предварительная маркировка данных – очень ценный подход, поскольку он помогает решить последующую проблему поиска данных для дальнейшего использования. Таким образом, данные помечаются, и они могут перемещаться прямо в базу данных, data хранилище или озеро данных. В машинном обучении эта концепция переходит в особый вид базы данных, называемый хранилищем функций. Это подготавливает данные, выполняет некоторую предварительную обработку и сохраняет их в базе данных для будущего использования машиной. обучаются обучающим моделям по мере того, как они проходят через множество итераций и изменений алгоритмов ».

Пометка и каталогизация данных – это первый шаг в обнаружении данных, но как только это будет сделано и появится головокружительный массив наборов данных, вам придется их найти. Это не так просто, как вылить все данные в хранилище объектов S3, а затем наложить на него слои Elasticsearch или IBM Spectrum Discover, хотя компании так и поступают.

Это необходимо, но недостаточно, потому что не все данные, полезные для специалистов по данным, находятся в хранилище объектов. Цель «пирога в небе» – иметь федеративную службу данных – подумайте о PrestoDB от Facebook и его коммерческих вариантах Ahana и Starburst, или о программном обеспечении для кэширования данных Tachyon от AMPLab в Калифорнийском университете в Беркли и его коммерческом варианте Alluxio, – которые могут оставьте данные там, где они есть, в том формате, в котором они уже есть, и выполните запрос к ним, будь то в реляционной базе данных, хранилище объектов, HDFS или чем-то еще.

Kubernetes тоже обнаруживает данные °

Глубокая чистка

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Количество установок Windows 11 по-прежнему значительно отстает от Windows 10

Глубокая чистка

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Количество установок Windows 11 по-прежнему значительно отстает от Windows 10

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА