Мониторинг сервиса FTS

В рамках сотрудничества ОИЯИ и ЦЕРН была разработана полнофункциональная система мониторинга сервиса FTS.
Модель данных системы:

В процессе проектирования были определены четыре основные категории пользователей:

  • менеджеры виртуальных организаций,
  • высший менеджмент,
  • администраторы FTS сервиса и
  • администраторы грид-сайтов.

Менеджеров виртуальных организаций интересует информация об общих параметрах сервиса передачи данных и  конкретная информация о грид-сайтах за определенный период времени.

Администраторам грид-сайтов необходима информация о настройках и текущем состоянии каналов передачи данных, информация об ошибках на стороне их сайта и хостов, и при этом более востребованы последние данные и информация за прошедшие сутки

Высший менеджмент имеет потребность в получении сводных отчетов за достаточно большие промежутки времени.

Администраторам FTS сервиса требуется оперативная информация об ошибках, загрузке, работе сайтов и виртуальных организаций, а также степени связанности различных ошибок.

Модель данных системы:

Интерфейс системы состоит из нескольких модулей.
У пользователей есть возможность начать свою работу с системой непосредственно из интересующего его модуля, либо с главной страницы, на которой представленыобщие отчеты, позволяющие определить состояние сервиса и возможные источники  проблем.

Система предоставляет возможности получения широкого спектра отчетов, рейтингов, статистических выкладок и определения коэффициента корреляции для пары ошибок.
Практически все отчеты системы мониторинга сервиса передачи данных снабжены перекрестными ссылками, что удобно для детализации результатов.

В системе реализован механизм оповещения при сбоях, позволяющий  администратору сервиса создать свои собственные наборы правил (триггеры), при срабатывании которых будут выполнены определенные действия:  отправлены сообщения посредством web-интерфейса, электронной почты, sms и т.д.

Cледующая информация о каналах передачи данных сервиса  FTS с детализацией по грид-сайтам и виртуальным организациям:

  • Количество передач файлов;
    абсолютное и относительное число успешных и неуспешных передач;
  • выявленные причины возникающих ошибок (несколько первых в цепочке) и их количественное соотношение в общем  числе ошибок;
  • средний размер переданных файлов;
  • среднее время передачи;
  • средняя скорость передачи данных в канале;
  • объем переданных и полученных данных.