Лента TH Новости Глобальные вызовы


Центр данных CERN прошел отметку 200 петабайт

∴ 162

29 июня 2017 года CERN перешагнул за отметку в 200 петабайт данных, которые постоянно архивируются в ленточных библиотеках. Возникает вопрос: откуда эти данные берутся?

642

Частицы сталкиваются в детекторе Большого Адронного Коллайдера (БАК) примерно 1 миллиард раз в секунду, генерируя около одного петабайта данных о столкновениях в секунду. Однако такое количество данных невозможно обработать современным вычислительным системам, и они, следовательно, фильтруются экспериментами, которые выбирают только самые интересные случаи.

Отфильтрованные данные БАК агрегируются в Центре данных CERN, где выполняется первоначальная реконструкция данных, и где копия архивируется на долгосрочную ленточную память. Даже после резкого сокращения данных, выполненного в результате экспериментов, компьютерная лаборатория обрабатывает в среднем один петабайт данных в день. Таким образом, 29 июня была достигнута отметка в 200 петабайт данных, постоянно архивированных в ленточных библиотеках.

Четыре больших эксперимента БАК сгенерировали беспрецедентные объемы данных за последние два года. Во многом это связано с выдающейся производительностью и доступностью самого БАК. Действительно, в 2016 году ожидалось около 5 миллионов секунд на сбор данных, а итоговая сумма составила около 7,5 миллионов секунд, что было очень здорово. Аналогичная тенденция наблюдается и в 2017 году.

Кроме того, поскольку вычислительные мощности выше, чем в 2016 году, многие столкновения перекрываются, а события требуют более сложной реконструкции и анализа. Это оказывает сильное влияние на вычислительные требования. Следовательно, во многих аспектах сбора, скорости передачи и объема данных происходит разрывы записей с исключительным уровнем использования ресурсов для вычислений и хранения.

Чтобы справиться с этими проблемами, вычислительная инфраструктура в целом и, в частности, системы хранения данных, прошли через крупные обновления и консолидацию в течение двух лет работы. Эти обновления позволили Центру обработки данных справиться с 73 петабайтами данных, полученных в 2016 году (49 из которых были данными LHC) и потоком данных, 2017 года. Эти обновления также позволили системе CERN Advanced STORAGE (CASTOR) пройти веху в 200 петабайт постоянно архивированных данных. Эти постоянно архивированные данные представляют собой важную часть общего объема данных, полученных в центре данных ЦЕРН, а остальные – это временные данные, которые периодически очищаются.

Другим следствием большего объема данных является повышенный спрос на их передачу и, следовательно, потребность в более высокой пропускной способности сети. С начала февраля третья оптоволоконная система с пропускной способностью в 100 Gb/s соединила CERN DC с ее удаленным хранилищем, размещенным в Исследовательском центре физики Wigner (RCP) в Венгрии. Дополнительная пропускная способность и избыточность места, помогают CERN надежно использовать вычислительную мощность и память на удаленном доступе. Это стимулирует проведение еще большего количества экспериментов и исследований.

Филипп Дончев