Описание директив Nagios

Директивы для описания сервера, т.е. define host:

flap_detection_enabled 1 # Включить обнаружение мерцания. Его параметры задаются или директивами low_flap_threshold, high_flap_threshold или в конфиге нагиоса параметрами low_host_flap_threshold, high_host_flap_threshold.

notifications_enabled 1 # Включить уведомления

event_handler_enabled 1 # Включить обработчик событий

retain_status_information 1 # Сохранять статусную информацию между перезагрузками программы

retain_nonstatus_information 1 # Сохранять нестатусную информацию между перезагрузками программы

register 0 # Означает, что все вышеописанное - есть шаблон. Запрет регистрировать это описание как хост

check_interval # Период осуществления проверок в минутах

retry_interval # Определяет время ожидания перед повторной проверкой в минутах

max_check_attempts 8 # Количество попыток повторного тестирования после того, как одна из попыток возвратила ошибочный статус (максимальное кол-во попыток, после которого хост считается неработоспособным).

notification_interval 100 # Интервал в минутах, по прошествию которого нужно повторно отсылать уведомление, если сервер все еще не работает.

notification_period 24x7 # Период времени, в течение которого серверу разрешено беспокоить администратора своими уведомлениями (эти числа следует искать в конфиге timeperiods.cfg).

notification_options d,u,r # Список событий, при наступлении которых необходимо отсылать уведомления. Соответственно d,u,r (DOWN, UNREACHABLE, RECOVERY) означает события "работает", "недоступен", "восстановлен".


Описание сервиса, т.е. define service:

active_checks_enabled 1 # Включить активные проверки

passive_checks_enabled 1 # Принимать результаты пассивных проверок

parallelize_check 1 # Активные проверки лучше выполнять паралельно, такой подход повышает скорость работы

obsess_over_service 0 # Эту опцию стоит включать только при создании распределенной системы мониторинга.

check_freshness 0 # Следить за свежестью результатов проверок (пригождается в распределенном мониторинге). По умолчанию отключено

notifications_enabled 1 # Включить уведомления

event_handler_enabled 1 # Включить обработчики событий

flap_detection_enabled 1 # Включить обнаружение мерцания. Его параметры задаются или директивами low_flap_threshold, high_flap_threshold или в конфиге нагиоса параметрами low_service_flap_threshold, high_service_flap_threshold.

process_perf_data 1 # Собирать данне об эффективности выполнения проверок

retain_status_information 1 # Сохранять информацию о статусе между перезапусками Nagios

retain_nonstatus_information 1 # Сохранять нестатусную информацию между перезапусками Nagios

register 0 # Запрет регистрировать это описание как сервис

is_volatile 0 # Для стандартных сервисов лучше оставить значение 0. К нестандартным сервисам стоит относить те сервисы, которые после каждой проверки автоматически возвращаются в состояние "ОК" вне зависимости от режима, в котором они находились до проверки.

check_period 24x7 # Период, в течение которого можно выполнять проверки

max_check_attemps 3 # Максимальное количество повторных проверок

normal_check_interval 5 # Интервал между нормальными проверками

retry_check_interval 1 # Интервал между повторными проверками. Применяется, если нормальная проверка завершилась неудачно

notification_interval 120 # Интервал (в минутах), после которого нужно послать повторное уведомление, если сервис так и не восстановился

notification_period 24x7 # Период, в течение которого можно производить отправку уведомлений

notification_options w,u,c,r # Список событий, при наступлении которых необходимо отсылать уведомления.

Подробнее о retry_check_interval: Предположим наш хост/сервис упал сразу после его успешной проверки раз в 10 минут, значит до следующей проверки должно пройти 10 минут в течении которых система не знает и не проверяет доступность этого хоста/сервиса. На ~10ой минуте после недоступности хоста/сервиса Nagios делает очередную проверку и определяет что хост/сервис down, но оповещение сразу не шлет, а в дело вступает переменная retry_check_interval, которая перепроверяет теперь хост каждую 1 минуту. Таких перепроверок будет всего 3 по количеству max_check_attempts. Теперь прикинем максимальное время с момента падения ~10+3=~13мин, а минимальное время реагирования Nagios будет чуть больше 3мин.

 Другие более специфические директивы можно посмотреть по ссылке https://assets.nagios.com/downloads/nagioscore/docs/nagioscore/3/en/objectdefinitions.html

 

Обновлено 06.04.2016 21:52

unix-way