Директивы для описания сервера, т.е. define host:
flap_detection_enabled 1 # Включить обнаружение мерцания. Его параметры задаются или директивами low_flap_threshold, high_flap_threshold или в конфиге нагиоса параметрами low_host_flap_threshold, high_host_flap_threshold.
notifications_enabled 1 # Включить уведомления
event_handler_enabled 1 # Включить обработчик событий
retain_status_information 1 # Сохранять статусную информацию между перезагрузками программы
retain_nonstatus_information 1 # Сохранять нестатусную информацию между перезагрузками программы
register 0 # Означает, что все вышеописанное - есть шаблон. Запрет регистрировать это описание как хост
check_interval # Период осуществления проверок в минутах
retry_interval # Определяет время ожидания перед повторной проверкой в минутах
max_check_attempts 8 # Количество попыток повторного тестирования после того, как одна из попыток возвратила ошибочный статус (максимальное кол-во попыток, после которого хост считается неработоспособным).
notification_interval 100 # Интервал в минутах, по прошествию которого нужно повторно отсылать уведомление, если сервер все еще не работает.
notification_period 24x7 # Период времени, в течение которого серверу разрешено беспокоить администратора своими уведомлениями (эти числа следует искать в конфиге timeperiods.cfg).
notification_options d,u,r # Список событий, при наступлении которых необходимо отсылать уведомления. Соответственно d,u,r (DOWN, UNREACHABLE, RECOVERY) означает события "работает", "недоступен", "восстановлен".
Описание сервиса, т.е. define service:
active_checks_enabled 1 # Включить активные проверки
passive_checks_enabled 1 # Принимать результаты пассивных проверок
parallelize_check 1 # Активные проверки лучше выполнять паралельно, такой подход повышает скорость работы
obsess_over_service 0 # Эту опцию стоит включать только при создании распределенной системы мониторинга.
check_freshness 0 # Следить за свежестью результатов проверок (пригождается в распределенном мониторинге). По умолчанию отключено
notifications_enabled 1 # Включить уведомления
event_handler_enabled 1 # Включить обработчики событий
flap_detection_enabled 1 # Включить обнаружение мерцания. Его параметры задаются или директивами low_flap_threshold, high_flap_threshold или в конфиге нагиоса параметрами low_service_flap_threshold, high_service_flap_threshold.
process_perf_data 1 # Собирать данне об эффективности выполнения проверок
retain_status_information 1 # Сохранять информацию о статусе между перезапусками Nagios
retain_nonstatus_information 1 # Сохранять нестатусную информацию между перезапусками Nagios
register 0 # Запрет регистрировать это описание как сервис
is_volatile 0 # Для стандартных сервисов лучше оставить значение 0. К нестандартным сервисам стоит относить те сервисы, которые после каждой проверки автоматически возвращаются в состояние "ОК" вне зависимости от режима, в котором они находились до проверки.
check_period 24x7 # Период, в течение которого можно выполнять проверки
max_check_attemps 3 # Максимальное количество повторных проверок
normal_check_interval 5 # Интервал между нормальными проверками
retry_check_interval 1 # Интервал между повторными проверками. Применяется, если нормальная проверка завершилась неудачно
notification_interval 120 # Интервал (в минутах), после которого нужно послать повторное уведомление, если сервис так и не восстановился
notification_period 24x7 # Период, в течение которого можно производить отправку уведомлений
notification_options w,u,c,r # Список событий, при наступлении которых необходимо отсылать уведомления.
Подробнее о retry_check_interval: Предположим наш хост/сервис упал сразу после его успешной проверки раз в 10 минут, значит до следующей проверки должно пройти 10 минут в течении которых система не знает и не проверяет доступность этого хоста/сервиса. На ~10ой минуте после недоступности хоста/сервиса Nagios делает очередную проверку и определяет что хост/сервис down, но оповещение сразу не шлет, а в дело вступает переменная retry_check_interval, которая перепроверяет теперь хост каждую 1 минуту. Таких перепроверок будет всего 3 по количеству max_check_attempts. Теперь прикинем максимальное время с момента падения ~10+3=~13мин, а минимальное время реагирования Nagios будет чуть больше 3мин.
Другие более специфические директивы можно посмотреть по ссылке https://assets.nagios.com/downloads/nagioscore/docs/nagioscore/3/en/objectdefinitions.html
Обновлено 06.04.2016 21:52