ГридННС Мониторинг и Аккаунтинг

Система мониторинга и учёта использования ресурсов проекта ГридННС

Современные распределенные системы, к которым относятся и грид-инфраструктуры, являются достаточно сложными техническими системами. Поэтому для поддержания их функционирования необходимы автоматизированные средства для наблюдения за их состоянием и использованием.

Целью проекта ГридННС (2009-2011 гг.) являлось создание и предоставление грид-инфраструктуры для нужд Национальной нанотехнологической сети России.

Промежуточное программное обеспечение для построении грид-инфраструктуры проекта было частично основано на таких широко известных пакетах, как Globus Toolkit 4 и VOMS, но многие сервисы инфраструктуры были полностью разработаны «с нуля» в рамках проекта. В связи с этим потребовалась разработка и специализированных средств для мониторинга системы и учёта использования ресурсов.

Для эффективного управления грид-инфраструктурой, обнаружения ошибок и планирования её развития необходима не только информация о её состоянии в настоящий момент времени, но и история изменения параметров состояния во времени.

Мониторинг – достаточно общее понятие. В проекте ГридННС основными задачами мониторинга являлись:

  • Непрерывное наблюдение за состоянием грид-сервисов, как базовых (общих для всей инфраструктуры), так и относящихся к отдельным ресурсным центрам;
  • Получение информации о вычислительных ресурсах (количество слотов для выполнения задач, архитектура вычислительной системы, установленнoе программное обеспечение, доступные специализированные программные пакеты);
  • Данные о правилах доступа виртуальных организаций к ресурсам;
  • Информация об использовании вычислительных ресурсов (прежде всего, о потреблённом процессорном времени);
  • Мониторинг выполнения вычислительных заданий и задач (запуск, изменение состояния, коды завершения и т.п.);
  • Данные об использовании виртуальными организациями квот на вычислительные ресурсы.

Для инфрастурктуры ГридННС были характерны параллельные вычислительные задачи и использование технологии MPI. Для их выполнения требуются достаточно большие объёмы вычислений, при этом объёмы хранимых и передаваемых данных не особенно велики. По этой причине для системы мониторинга представляли интерес прежде всего вычислительные задания и задачи (задачи являются составными частями заданий и могут быть связаны между собой). Мониторинг задач естественным образом связан с учётом использования ресурсов (так называемым аккаунтингом или биллингом): важно знать, кто, когда и где использовал ресурсы проекта.

Для того, чтобы выбрать подходящие вычислительные ресурсы для выполнения своей задачи, пользователю необходимо знать основные характеристики доступных ресурсов. Наиболее важными являются список поддерживаемых виртуальных организаций; аппаратная архитектура вычислительного комплекса; общее количество слотов для задач и количество слотов, свободных в данный момент; версия используемой операционной системы; список установленных специализированных программных пакетов.

При выборе ресурсов для запуска задач важно также принимать во внимание состояние сервисов подходящих ресурсных центров, а также базовых грид-сервисов инфраструктуры.

Командой ЛИТ ОИЯИ была создана система мониторинга грид-инфраструктуры для проекта ГридННС, выполнявшая обозначенные выше задачи: мониторинг функционирования и параметров ресурсов и сервисов грид-инфраструктуры, очередей задач, мониторинг пользовательских задач и заданий, учёт использования вычислительных ресурсов.

Данные мониторинга и учёта использования вычислительных ресурсов проекта ГридННС были доступны через веб-интерфейс по адресу http://mon.ngrid.ru . Информация была представлена в виде таблиц и диаграмм в форме отчётов по ресурсным центрам, виртуальным организациям и отдельным пользователям. Также была реализована возможность отображения мониторинга заданий и задач в реальном масштабе времени на трёхмерном изображении земного шара при помощи программы Google Earth.

Примеры отображаемой информации приведены на рисунках ниже.

Рисунок 1. Ресурсные центры ГридННС на карте

Рисунок 2. Распределение задач по ресурсным центрам (таблица)

Рисунок 3. Распределение задач по ресурсным центрам (диаграмма)

Рисунок 4. Отображение событий по задачам в Google Earth

Комментарии запрещены.