Снижение затрат на облачную аналитику и хранение данных

От

20.07.2023

Рекламная функция Информация хочет быть свободной. Это также имеет тенденцию быть дорогим, особенно когда вам нужно его обрабатывать. По мере того, как мы изо всех сил пытаемся извлечь больше информации из наших данных, начинается гонка за снижение связанных с этим вычислительных затрат. Облако помогает повысить производительность гигантских хранилищ данных, необходимых для получения новых идей, без ущерба для банка.

Инфляция явно сильно ударила по некоторым компаниям, закупающим собственную инфраструктуру для хранения и обработки данных. Но в то время как цены на компоненты серверов и систем хранения колеблются, объем данных, которые компании должны хранить и обрабатывать, чтобы оставаться конкурентоспособными, продолжает расти. В 2018 году IDC и Seagate совместно подготовили отчет Data Age 2025, согласно которому общий объем данных, создаваемых, собираемых и реплицируемых каждый год, вырастет с 33 зеттабайт до примерно 100 зеттабайт в этом году. В отчете ожидается, что объемы вырастут еще на 75 процентов и достигнут 175 зеттабайт в 2025 году.

Ориентация на соотношение цены и качества

Поскольку цены и объемы данных растут, компании должны уделять больше внимания эффективности, чтобы решить проблему хранения и обработки корпоративных данных. Вот почему AWS постоянно стремится повысить производительность своего сервиса хранения данных и аналитики Amazon Redshift. Мы поговорили со Стефаном Громоллом, менеджером по разработке производительности в Amazon, который уделяет много времени повышению производительности Redshift для клиентов.

«Мы сосредоточены на постоянном улучшении соотношения цены и качества Redshift, что означает обеспечение наилучшей производительности за каждый потраченный доллар», — говорит он. Ценовая эффективность должна быть последовательной и предсказуемой, чтобы клиенты могли регулировать стоимость крупномасштабной обработки данных. Если Amazon может обеспечить лучшее соотношение цены и качества, чем поставщики локальных хранилищ данных и конкуренты в области облачных хранилищ данных, и если она может постоянно улучшать соотношение цены и качества своего собственного сервиса, то команда по повышению эффективности выполняет свою работу.

Разделение хранилища и вычислений

Цена включает в себя как стоимость хранения, так и обработки данных. «Однако для большинства клиентов, по крайней мере, по некоторым данным, стоимость вычислений является доминирующим фактором, — говорит Громолл.

Amazon Redshift с момента своего появления уделял особое внимание соотношению цены и качества. Но это был дебют узлов RA3 и управляемого хранилища в декабре 2019 года, что позволило пользователям Redshift разделить хранение и вычисления, масштабируя каждое по мере необходимости (полную историю читайте здесь). В этих узлах используются большие высокопроизводительные твердотельные накопители для локального кэширования и управляемое хранилище Redshift для улучшения соотношения цены и качества.

Отделение вычислительных ресурсов от хранилища позволило клиентам расширить возможности обработки данных, не платя за ненужное хранилище данных. Группа производительности Redshift сосредоточена на повышении производительности вычислительной инфраструктуры и инфраструктуры хранения данных, а улучшения нацелены на бюджет, а не на контрольные показатели.

«Мы хотим знать, как обстоят дела с этими официальными тестами, потому что мы знаем, что люди проводят их там», — говорит он. Но основное внимание уделяется повышению производительности реального хранилища данных в тех областях, которые действительно важны для клиентов.

Громолл и его команда регулярно проверяют телеметрию производительности флота Redshift, чтобы найти общие возможности оптимизации производительности. Затем они работают над тем, чтобы выжать из Redshift больше производительности обработки данных при тех же затратах.

Ряд улучшений производительности

Одним из недавних примеров была векторизация строк, которая применяет общую технологию повышения производительности к обработке строк. С меньшими регистрами одно ядро ЦП могло выполнять только одну математическую операцию за такт. Компании обрабатывали параллельные операции, одновременно выполняя группы вычислений на нескольких ядрах, но это все еще оставляло место для повышения производительности на уровне одного ядра. По мере увеличения размеров регистров в одном регистре можно было хранить несколько чисел. Векторизация использует эту возможность для запуска одной инструкции для нескольких чисел одновременно за один такт.

Клиенты Redshift хранят большую часть своих данных в виде строк, а не целых чисел или чисел с плавающей запятой. «Мы поняли, что у наших клиентов есть много возможностей улучшить производительность струн». — вспоминает Громолл.

Инженеры Amazon разработали новый способ управления сжатыми строковыми данными на диске. Векторизация алгоритмов, считывающих кодировку со сжатием строк, позволила эффективно использовать ЦП сканирование по сжатым столбцам строк, закодированных в словаре. По словам Громолл, это ускорило обработку нескольких строк до шестидесяти раз для запросов, обрабатывающих большие объемы строковых данных.

Улучшение времени отклика

Компания Playrix, занимающаяся мобильными играми, начала использовать Amazon Redshift Serverless в 2022 году, чтобы улучшить использование маркетинговой аналитики для увеличения продаж игр. Компания, у которой 85 миллионов активных пользователей в день, должна анализировать десятки петабайт данных, чтобы понять, как игроки взаимодействуют с ее играми. Его база данных PostgreSQL, размещенная на EC2, хорошо служила, но с трудом справилась. После того, как Playrix перешла на Redshift вместе с контейнером бессерверных приложений AWS Fargate (который получает данные из партнерских систем), у нее улучшилось время отклика на запросы к большим объемам исторических данных, а ежемесячные расходы сократились на 20 процентов.

Параллелизм играет важную роль в Redshift и на уровне кластера. Хранилище данных имеет функцию, известную как параллельное масштабирование, которая автоматически добавляет и удаляет вычислительные ресурсы, чтобы удовлетворить изменчивый спрос на запросы на чтение и запись. Функция автоматического масштабирования сокращает количество запросов в очереди или устраняет их, ускоряя обработку данных для больших рабочих нагрузок и избегая узких мест. С клиентов взимается плата только за дополнительные вычисления, которые используются их запросами.

Параллельное масштабирование было еще одним ключевым преимуществом миграции Playrix на Redshift. Игровая аналитика несет нестабильные рабочие нагрузки, но Playrix использует Concurrency Scaling для обслуживания резких SQL-запросов от своих внутренних пользователей, быстро масштабируясь при низких затратах. Сегодня Playrix обрабатывает и хранит до 5 ТБ потоковых данных в реальном времени от своих маркетинговых партнеров в своем озере данных Amazon Redshift. Он применяет машинное обучение к этим данным, помогая прогнозировать доход и пожизненную ценность клиента.

Автоматизация управления рабочей нагрузкой

Пользователи могут указать, с какими запросами должен работать кластер параллельного масштабирования, используя Auto Workload Manager (AutoWLM) Redshift. Это автоматизированная версия планировщика управления рабочей нагрузкой Amazon, которая отменяет ручные процессы, автоматически определяя, сколько запросов должно выполняться одновременно и какие ресурсы (например, память) выделять для каждого запроса.

Это важно, потому что клиенты отправляют много одновременных запросов, часто исчисляемых тысячами. «Когда вы получаете эти 1000 пользователей, которые одновременно отправляют запросы, AutoWLM решает, как именно выполнять все эти 1000 запросов таким образом, чтобы максимизировать пропускную способность». Громолл объясняет. Система также постоянно учится на шаблонах запросов, чтобы адаптировать эту оптимизацию с течением времени, адаптируя маршрутизацию запросов по мере развития использования хранилища.

Автоматическое управление рабочей нагрузкой настраивается в Redshift автоматически. Amazon сделала бессерверный вариант Redshift доступным в июле 2022 года, присоединившись к подготовленным механизмам развертывания Redshift.

Инстансы с оплатой по мере использования легко доступны, но пользователи могут повысить экономическую эффективность, заблаговременно планируя использование зарезервированных инстансов. Playrix зарезервировала инстансы для повышения эффективности цены с помощью Redshift, но также использует спотовые инстансы EC2. Это эфемерные экземпляры, которые Amazon может отменить с минимальным уведомлением, и поэтому цены на них очень низкие. Проницательные клиенты могут использовать их по возможности для диспетчеризации краткосрочных рабочих нагрузок.

Подобные стратегии окупились для Playrix. Он может похвастаться тысячепроцентным увеличением скорости своих аналитических запросов после перехода на Redshift по той же цене, что и его автономная реализация PostgreSQL на основе EC2.

«Мы вложили очень много средств, чтобы сделать производительность Redshift линейной». — говорит Громолл. Он отмечает, что как подготовленные, так и бессерверные решения можно масштабировать относительно небольшими шагами. Это дает клиентам большую гибкость для контроля расходов: подготовленные хранилища Redshift можно расширить или уменьшить всего за один вычислительный узел, в то время как Redshift Serverless использует еще более детализированные единицы обработки Redshift (RPU).

«Таким образом, вы действительно можете установить именно ту производительность и стоимость, которые вам нужны, без необходимости платить за больше вычислений, чем вам нужно — вам не нужно удваивать свой склад, если вам просто нужно немного больше вычислений». — добавляет Громолл.

Читайте также:

Одобряет слияние Broadcom и VMware

Цена производительность в действии

Влияние этих улучшений цены и производительности растет с увеличением объема данных, которые клиенты обрабатывают в Redshift, и действительно есть несколько очень крупных пользователей. Предоставление функций безопасности и управления для обеспечения комплексного управления идентификацией с детализированными элементами управления авторизацией, такими как управление доступом на основе ролей, безопасность на уровне строк или динамическое маскирование данных, без каких-либо дополнительных затрат для клиента, еще больше способствует экономии домашних средств и помогает с ценовой эффективностью.

Nasdaq, финансовая биржа и клиринговая палата, в которой размещаются почти 4000 зарегистрированных на бирже компаний по всему миру, перешла на Redshift в 2014 году для обеспечения своей бизнес-аналитики. Сегодня он каждую ночь обрабатывает миллиарды финансовых отчетов для обеспечения своей бизнес-аналитики, обрабатывая около четырех терабайт данных после закрытия рынка. Задача состоит в том, чтобы в первую очередь передать эти данные в систему для обработки.

Поскольку волатильность рынка увеличила нагрузку на данные, Nasdaq работала с AWS, чтобы заново изобрести операции хранения данных на основе Redshift. Оно переместило свое озеро данных на уровень управляемого хранилища Amazon S3 и переключилось на Amazon Redshift Spectrum.

Redshift Spectrum позволяет бирже запрашивать огромное озеро данных непосредственно в S3, что сокращает время, необходимое для извлечения, преобразования и загрузки данных в Redshift по отдельности. Новая архитектура также разделила хранение и вычисления, что позволило компании полностью сконцентрировать свои вычислительные узлы на обработке запросов, сократив время обработки запросов на треть.

Новая архитектура позволила Nasdaq увеличить объем еженощных записей с 30 миллиардов до 70 миллиардов и более, достигнув 90-процентной отметки по завершению загрузки данных на пять часов раньше, чем до изменения. Это готовит его к аналитической работе уже через час после закрытия рынка.

Автоматизация ручных задач

Еще одним классом функций Redshift, который помогает повысить соотношение цены и качества и устранить административные накладные расходы, является «автономность». Это помогает компаниям из разных вертикалей делать больше с Redshift, не тратя больше на персонал.

«Мы знаем, что наши клиенты не хотят вручную настраивать свою базу данных, чтобы добиться от нее максимальной производительности, — объясняет Громолл. «Поэтому за последние пару лет мы вложили значительные средства в автономию, которая позволяет базе данных самостоятельно настраиваться для обеспечения наилучшего соотношения цены и качества».

Одним из примеров автономности в действии является автоматическая оптимизация хранения и распределения данных в хранилище данных. Автономность Redshift может определять, когда можно повысить производительность, распределяя данные по-разному, и автоматически отправляет данные на соответствующие узлы для повышения производительности запросов. Правильное расположение данных перед выполнением запроса означает меньшую перетасовку данных во время выполнения запроса.

Раньше администраторам баз данных приходилось вручную назначать ключи распределения, используемые для размещения этих данных, но теперь это происходит автоматически. «Клиенты могут загрузить свои данные и начать с ними работать, — говорит Громолл. «Redshift автоматически изучит их рабочую нагрузку и оптимально перераспределит данные, чтобы обеспечить наилучшее соотношение цены и качества».

В будущем Громолл видит еще большие возможности в автономии. «Команды баз данных могут сосредоточиться на получении информации из своих данных, а не на администрировании своего хранилища данных». он постулирует. Его команда также тратит свое время на выявление целенаправленных улучшений производительности, которые сами по себе могут показаться незначительными, но которые способствуют значительной экономии при совместном применении к миллионам запросов. По мере увеличения объемов данных команда продолжает искать везде, где только можно, преимущества соотношения цены и качества, которые Amazon может передать своим клиентам.

При поддержке AWS.

Снижение затрат на облачную аналитику и хранение данных

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Поул-позишн – Регистр

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Поул-позишн – Регистр

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА