Tier3 мониторинг

С 2011 по 2012 год сотрудники ЛИТ ОИЯИ принимали участие в реализации НИОКР- проекта по разработке и внедрению системы мониторинга для  Тier3 сайтов   вычислительных ресурсов третьего уровня в иерархии центров обработки данных с экспериментов на Большом адронном коллайдере (БАК).  Детальное содержание данного проекта  изложено в публикации http://cdsweb.cern.ch/record/1336119/files/ATL-COM-SOFT-2011-005.doc

Тier3-центры экспериментов на БАК имеют «необязательный» объем ресурсов (т.е. жестких требований на количество предоставляемых ресурсов нет) и в основном ориентированы на географически близкие или локальные группы пользователей. Эти центры не только очень различны в своей архитектуре, но могут  также и не использовать промежуточное программное обеспечение грид, что делает невозможным применение систем мониторинга, разработанных для грид-центров.

Программное обеспечение для средств мониторинга центров 3-го уровня должно обеспечивать как локальный мониторинг сайтов, так и глобальное представление о работе виртуальных организаций БАК на этих сайтах.

Фактически разработки по проекту могут быть определены как 3 составляющие части:

  1. Локальный мониторинг сайта, на котором используется proof, root, xrootd, pbs, condor, посредством Ganglia.
  2. Интеграция данного сайта в глобальный грид-мониторинг, то есть доставка и отображение статистики обработки задач на сайтах tier3 в глобальном мониторинге (CERN Dashboard).
  3. Мониторинг передачи файлов в xrootd-федерации.

На первой стадии реализации данного проекта было  создано программное обеспечение, отвечающее требованиям пользователей и системных администраторов коллаборации ATLAS. Поскольку решение этой задачи имеет общий характер, это дает возможность другим виртуальным организациям (и не только внутри БАК) также использовать данную разработку.

Разработанный набор программных средств позволяет как отслеживать локальное состояние сайта как фермы, так и получать информацию о  грид-сервисах, которые обеспечивает данный сайт.

Система локального мониторинга собирает, накапливает и отображает информацию локального состояния, как то: состояние фермы (кластера) в целом и каждого отдельного узла, использование сети, сведения о системе пакетной обработки (распределение задач на узлах), информация о выполнении задач пользователей, состояние системы хранения данных (общий объем и степень использования ресурсов, число соединений, производительность ввода-вывода) и, наконец, информация об активности виртуальной организации  на данном сайте. Под «центральным» (глобальным) мониторингом центра 3-го уровня понимается мониторинг использования ресурсов этих грид-центров отдельными виртуальными организациями в контексте передачи данных, обработки заданий и качества обеспечиваемого при этом грид-сервиса.

Ход реализации проекта докладывался, в частности, на зимней сессии Программно-консультативного комитета ОИЯИ по физике частиц (январь 2012) и на конференции CHEP’2012. Подробнее…

В итоге успешного завершения проекта каждая из реализованных задач в отдельности получила использование и развитие в других проектах, так например:

  • система сборки rpm была доработана и применяется в  CERN Dashboard;
  • мониторинг xrootd-федерации стал частью глобального мониторинга и продолжает развивается командой CERN Dashboard;
  • cистема локального мониторинга  используется на многих сайтах 3-го уровня.

Комментарии запрещены.