Локальный мониторинг LITMON

 http://litmon.jinr.ru

Для наблюдения за инфраструктурой ЦИВК и её обслуживания  в ЛИТ была разработана  система локального мониторинга на базе свободно распространяемого программного продукта Nagios,  а также  плагинов, написанных специально для нужд ЦИВК .

Cистема      litmon обеспечивает  круглосуточный контроль всех ресурсов; оповещает о сбоях;  позволяет проводить комплексный анализ работы комплекса и  предоставлять актуальную информацию о его работе на более высокие уровни мониторинга.

Существует 2 типа доступа к системе мониторинга litmon:

1) https://litmon.jinr.ru/nagvis.  Доступ с авторизацией по AFS учётной
записи. Для сотрудников, ответственных за работоспособность определённых  компонентов ЦИВК.  Регистрация осуществляется через Ивана Кашунина email: miramir@jinr.ru

2) https://litmon-display.jinr.ru/nagvis. Для общей ознакомительной
информации предусмотрен доступ из сети ОИЯИ без пароля. Например :

Tier-1_WN.
Состояние аппаратной части счётных узлов (Work Nodes) грид-сайта JINR-T1.

Tier-1_themperature
График показаний датчиков температуры и влажности охлаждающих установок  грид-сайта JINR-T1 за последние 12 часов.

Oбъекты локального мониторинга можно распределить по трем уровням:

  1.  Нижний  :   сбор и отображение данных об отдельных узлах сети, их аппаратном  обеспечении; проверяется доступность их по сети, состояние источников питания,температурный режим :
  • мониторинг серверов с использованием Nagios Remote Plugin Executor (776 узлов ) — состояние процессоров, оперативной и дисковой памяти, аппаратное и программное обеспечение;
  • источники бесперебойного питания (APC) — SNMP-мониторинг;
  • вентиляционные блоки серверных стоек (APC) — SNMP-мониторинг;
  • установка климат-контроля (Stulz) — SNMP-мониторинг.

2.   Cетевой уровнь — устройства и службы, обеспечивающие работу локальной сети,  а также доступность необходимых для работы внешних сетей.  Система осуществляет мониторинг:

  • коммутаторов HP Procurve (состояние памяти и загрузки процессоров, характеристики портов) — SNMP-мониторинг;
  • агрегированных соединений (trunks) — SNMP-мониторинг, MRTG;
  • внешнего канала.

3. Верхний уровнь (уровнь служб): контроль работы сервисов, предоставляемых конечным пользователям :

  • базовые службы SMTP, POP, DNS, E-mail (с помощью стандартных Nagios-плагинов);
  • файловая система dCache (разработанные В. Трофимовым скрипты для сбора метрик, запускаемые с помощью NRPE);
  • служба gFTP
  • RAID-массивы (3Ware, Adaptec), обеспечивающие работу dCache (интегрированные в единый плагин средства мониторинга RAID соответствующих фирм-производителей).

Данные, получаемые в результате работы рассмотренной системы мониторинга, неоднократно способствовали выявлению, локализации и устранению сбоев в работе служб ЦИВК, а также оптимизации отдельных его элементов.