FTS-мониторинг

Система мониторинга сервиса передачи файлов FTS

Одной из важнейших функций грид является распределение, хранение и обработка огромных массивов данных, за что отвечают специализированные сервисы. В своей работе сервисы передачи данных взаимодействуют с множеством компонентов. Грид-инфраструктуры могут состоять из сотен сайтов (региональных компьютерных центров), на которых установлены различные системы хранения файлов. Для взаимодействия с системами хранения используются различные сервисы, а за передачу данных  отвечают различные протоколы. Сервисы передачи данных организуют работу всех элементов и сервисов управления данными, а также обрабатывают информацию об ошибках на любом этапе передачи данных. Ежедневно подобными сервисами выполняются тысячи транспортных задач, пересылаются десятки тысяч файлов, общие объемы передаваемой информации составляют десятки Терабайт в день! От надежности и корректности работы подобных сервисов непосредственно зависит успех использующих их проектов. Подробная информация о сервисах передачи файлов содержится в статье А.Ужинского и В.Коренькова “Архитектура сервиса передачи данных в grid”.

Сервис передачи файлов в промежуточном программном обеспечении (ППО) gLite  называется FTS (File Transfer Service), его аналог вGlobus  ППО –  RFT (Reliable File Transfer Service). К концу 2006-го года FTS и RFT находились на этапе становления, и набор средств их мониторинга был весьма ограничен. В основном он состоял из скриптов, визуализирующих информацию, предоставляемую самими сервисами посредством интерфейса командной строки, или комплексов мониторинга широкого профиля, отражающими общую информацию по передачам данных. Ни одна из систем не предоставляла полную информацию о состоянии сервисов, истории их функционирования, а главное об ошибках, возникающих в распределенных системах передачи данных.

В рамках сотрудничества ОИЯИ и ЦЕРН была разработана полнофункциональная система мониторинга сервиса FTS. В процессе проектирования были определены четыре основные категории пользователей: менеджеры виртуальных организаций, высший менеджмент, администраторы FTS сервиса и администраторы грид-сайтов. Каждая из представленных групп заинтересована в различных данных, собранных за различные временные интервалы и представленных в различном виде. Менеджеров виртуальных организаций интересует информация об общих параметрах сервиса передачи данных и  конкретная информация о грид-сайтах за определенный период времени. Администраторам грид-сайтов необходима информация о настройках и текущем состоянии каналов передачи данных, информация об ошибках на стороне их сайта и хостов, и при этом более востребованы последние данные и информация за прошедшие сутки. Администраторов грид-сайтов интересуют как категории ошибок для определения проблем, так и конкретные описания ошибок для их устранения. Высший менеджмент имеет потребность в получении сводных отчетов за достаточно большие промежутки времени. Наконец, администраторам FTS сервиса требуется оперативная информация об ошибках, загрузке, работе сайтов и виртуальных организаций, а также степени связанности различных ошибок. И для всех категорий пользователей необходимы отчеты, позволяющие в кратчайшие сроки с наименьшими затратами найти и определить причину ошибок, возникающих при передаче данных. Таким образом, при проектировании системы мониторинга учитывалась потребность в большом спектре отчетов для разных категорий пользователей, которые необходимо  было стандартизировать и реализовать в системе.

После детального анализа базы данных сервиса передачи файлов была спроектирована модель данных системы мониторинга, предоставляющая удобную базу для создания различных отчетов. Ядро модели составляют информационные и системные таблицы, а также таблицы, содержащие обработанную и необработанную информацию. Данные в указанные таблицы поступают непосредственно из базы данных сервиса передачи файлов, либо задаются пользователем. Существуют также таблицы отдельных модулей системы: «система оповещения» и «экспертная система». Общая модель данных системы мониторинга представлена на рис.1.

Модель данных системы мониторинга FTS
Рис. 1 Модель данных системы мониторинга FTS

Интерфейс системы состоит из нескольких модулей. У пользователей есть возможность начать свою работу с системой непосредственно из  интересующего его модуля, либо с главной страницы, на которой представлены общие отчеты, позволяющие определить  состояние сервиса и возможные источники проблем. Система предоставляет возможности получения широкого спектра отчетов, рейтингов, статистических выкладок и определения коэффициента корреляции для пары ошибок. Практически все отчеты системы мониторинга сервиса передачи данных снабжены перекрестными ссылками, что очень удобно для детализации результатов.

В системе реализован механизм оповещения при сбоях, позволяющий администратору сервиса создать свои собственные наборы правил (триггеры), при срабатывании которых будут выполнены определенные действия (отправлены сообщения посредством web-интерфейса, электронной почты, sms и т.д.). Триггеры можно создавать для каналов передачи, грид-сайтов, хостов и виртуальных организаций. Реализованы три типа триггеров: (1) при превышении числа ошибок определенного уровня, (2) при изменении уровня ошибок более, чем на заданную величину и (3) при превышении процента неудачных передач определенного уровня. Если пользователь работает с триггерами типа 1 и 2, то он может указать идентификационный номер определенной ошибки, чтобы отслеживать только ее развитие. При работе с каналами, грид-сайтами и хостами, пользователь может указать виртуальную организацию для получения необходимых параметров. Информация о  срабатывании триггера может быть получена из специальной таблицы, что существенно упрощает использование механизма оповещений. Благодаря механизму оповещений значительно упрощается работа администраторов сервиса. Подробно ознакомиться с системой мониторинга FTS можно в статье А.Ужинского и В.Коренькова “Система мониторинга сервиса передачи данных (FTS) проекта EGEE/WLCG”.

Созданная система мониторинга FTS предназначена для улучшения качества передачи данных. Благодаря этой системе мониторинга различные группы пользователей получили возможность иметь необходимую им информацию о передачах данных. Используя данные системы, было проведено исследование ошибок, возникающих при передаче файлов в крупных распределенных грид-инфраструктурах. Исследование позволило определить самые распространенные ошибки, причины их возникновения, основные области возникновения ошибок, выявить программные и логические ошибки в приложениях. Исправление обнаруженных ошибок самым положительным образом отразилось на функционировании ряда активно используемых приложений и надежности сервиса передачи файлов. Система долгое время использовалась в ЦЕРН для поддержания функционирования сервиса FTS.

Комментарии запрещены.