Для наблюдения за инфраструктурой ЦИВК и её обслуживания в ЛИТ была разработана система локального мониторинга на базе свободно распространяемого программного продукта Nagios, а также плагинов, написанных специально для нужд ЦИВК .
Cистема litmon обеспечивает круглосуточный контроль всех ресурсов; оповещает о сбоях; позволяет проводить комплексный анализ работы комплекса и предоставлять актуальную информацию о его работе на более высокие уровни мониторинга.
Существует 2 типа доступа к системе мониторинга litmon:
1) https://litmon.jinr.ru/nagvis. Доступ с авторизацией по AFS учётной
записи. Для сотрудников, ответственных за работоспособность определённых компонентов ЦИВК. Регистрация осуществляется через Ивана Кашунина email: miramir@jinr.ru
2) https://litmon-display.jinr.ru/nagvis. Для общей ознакомительной
информации предусмотрен доступ из сети ОИЯИ без пароля. Например :
Tier-1_WN.
Состояние аппаратной части счётных узлов (Work Nodes) грид-сайта JINR-T1.
Tier-1_themperature
График показаний датчиков температуры и влажности охлаждающих установок грид-сайта JINR-T1 за последние 12 часов.
Oбъекты локального мониторинга можно распределить по трем уровням:
- Нижний : сбор и отображение данных об отдельных узлах сети, их аппаратном обеспечении; проверяется доступность их по сети, состояние источников питания,температурный режим :
- мониторинг серверов с использованием Nagios Remote Plugin Executor (776 узлов ) — состояние процессоров, оперативной и дисковой памяти, аппаратное и программное обеспечение;
- источники бесперебойного питания (APC) — SNMP-мониторинг;
- вентиляционные блоки серверных стоек (APC) — SNMP-мониторинг;
- установка климат-контроля (Stulz) — SNMP-мониторинг.
2. Cетевой уровнь — устройства и службы, обеспечивающие работу локальной сети, а также доступность необходимых для работы внешних сетей. Система осуществляет мониторинг:
- коммутаторов HP Procurve (состояние памяти и загрузки процессоров, характеристики портов) — SNMP-мониторинг;
- агрегированных соединений (trunks) — SNMP-мониторинг, MRTG;
- внешнего канала.
3. Верхний уровнь (уровнь служб): контроль работы сервисов, предоставляемых конечным пользователям :
- базовые службы SMTP, POP, DNS, E-mail (с помощью стандартных Nagios-плагинов);
- файловая система dCache (разработанные В. Трофимовым скрипты для сбора метрик, запускаемые с помощью NRPE);
- служба gFTP
- RAID-массивы (3Ware, Adaptec), обеспечивающие работу dCache (интегрированные в единый плагин средства мониторинга RAID соответствующих фирм-производителей).
Данные, получаемые в результате работы рассмотренной системы мониторинга, неоднократно способствовали выявлению, локализации и устранению сбоев в работе служб ЦИВК, а также оптимизации отдельных его элементов.