ЦЕРН меняет базы данных, чтобы избавиться от привычки использовать петабайты в день

    0
    0


    Европейский ускоритель частиц в ЦЕРНе ежедневно выбрасывает около петабайта данных, а это означает, что мониторинг вычислительной инфраструктуры, обрабатывающей данные, имеет решающее значение.

    Основная деятельность ЦЕРН основана на Большом адронном коллайдере (БАК), который перемещает субатомные частицы по кругу длиной 27 км на глубине 100 метров под землей, а затем сталкивает их друг с другом под видом восьми отдельных экспериментов. Среди них — эксперимент (CMS), целью которого, среди прочего, является обнаружение частиц, ответственных за темную материю.

    Как и другие эксперименты, CMS закрылся на период обновлений с 2018 по 2022 год и возобновился в июле прошлого года на трехлетний период запуска 3, в течение которого ученые будут увеличивать энергию луча и физические данные образцов с более высокой скоростью.

    В рамках подготовки к четырем крупным экспериментам БАК были проведены серьезные обновления систем считывания и отбора данных, добавлены новые детекторные системы и вычислительная инфраструктура. Изменения позволят им собирать значительно большие выборки данных более высокого качества, чем предыдущие прогоны.

    Но Бридж Кишор Джашал, учёный из коллаборации CMS, рассказал: Регистр что его команда в настоящее время агрегирует 30 терабайт данных в течение 30-дневного периода для мониторинга производительности своей вычислительной инфраструктуры.

    «Вступая в новую эру нашей операции Run 3, мы увидим все большее и большее масштабирование хранилища, а также данных. Одна из наших основных задач — гарантировать, что мы способны удовлетворить весь этот спрос и удовлетворить требования пользователей и управлять хранилищем», — сказал он.

    «После пандемии мы начали операцию «Запуск 3», которая обеспечивает более высокую яркость и генерирует гораздо больше данных. Но в дополнение к этому в четырех экспериментах были серьезно обновлены детекторы».

    Серверная система мониторинга инфраструктуры, поддерживающей физические данные, была основана на базе данных временных рядов InfluxDB и базе данных мониторинга Prometheus.

    Валентин Кузнецов из Корнеллского университета, член команды CMS, заявил в своем заявлении: «Мы искали альтернативные решения после проблем с производительностью Prometheus и InfluxDB».

    Джашал сказал, что у системы были проблемы с масштабируемостью и надежностью.

    «Поскольку мы увеличивали детализацию наших точек данных, мы начали испытывать некоторые проблемы с надежностью, а также проблемы с производительностью с точки зрения количества ресурсов виртуальных машин и используемых сервисов».

    В поисках альтернативы команда мониторинга CMS наткнулась на VictoriaMetrics, стартап из Сан-Франциско, построенный на основе базы данных временных рядов с широкими столбцами с открытым исходным кодом, через сообщение на Medium технического директора и соучредителя Александра Валялкина.

    Разговаривая с РегистрРоман Хавроненко, соучредитель VictoriaMetrics, сказал, что в предыдущей системе были проблемы с высокой кардинальностью, которая относится к уровню повторяющихся значений (и высокой текучести данных), когда приложения могут быть повторно развернуты несколько раз в новых экземплярах.

    Внедрив VictoriaMetrics в качестве внутреннего хранилища для Prometheus, группа мониторинга CMS перешла к использованию этого решения в качестве внешнего хранилища для замены InfluxDB и Prometheus, помогая устранить проблемы с количеством элементов, говорится в заявлении компании.

    Джашал рассказал Регистр: «Мы вполне довольны тем, как работают наши кластеры развертывания и службы. Мы еще не достигли каких-либо ограничений с точки зрения масштабируемости. Теперь мы запускаем службы в режиме высокой доступности в наших кластерах Kubernetes, что повышает надежность служб».

    Система работает в собственном центре обработки данных CERN — сервисе OpenStack, работающем на кластерах компьютеров x86.

    В марте этого года InfluxDB заявила, что решила проблему мощности с помощью нового механизма хранения IOx. «Долгое время мощность была пресловутым «каном в обуви» для InfluxDB. Конечно, она все еще работала, но не так комфортно, как могла бы. С движком InfluxDB IOx производительность находится на переднем плане, а с кардинальность больше не является проблемой, как раньше, InfluxDB может принимать и анализировать большие рабочие нагрузки в режиме реального времени», — говорится в сообщении. ®

    Предыдущая статьяЭто выгодное предложение дает скидку 84 % на Microsoft Office Professional для Windows.
    Следующая статьяAsus наконец-то выпустила базовую модель ROG Ally с APU AMD Z1 для
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.