Добрый день!!! Просьба помочь в решении вопроса.Проблема следующая: По серверах который перезагружаются менее чем за одну минуту не отправляются сообщения, хотя инциденты характерные для перезагрузки фиксируются в логе Nagios. В основном это относится к серверам на VMware.
По остальным серверам(где перезагрузка или выключение занимает более 2 минут ) сообщения ходят как часы.
Конфиг сервера:define host{
use generic-host
host_name xxxx
alias xxxx
address xxxx
check_command check-host-alive
max_check_attempts 3
notification_interval 1
notification_period 24x7
notification_options d,u,r
contact_groups xxxx
}define service{
use generic-service
host_name xxxx
service_description Ping
is_volatile 0
check_period 24x7
max_check_attempts 3
normal_check_interval 1
retry_check_interval 1
contact_groups xxxx
notification_interval 1
notification_period 24x7
notification_options w,u,c,r
check_command check-host-alive
}
>Добрый день!!! Просьба помочь в решении вопроса.
>
>Проблема следующая: По серверах который перезагружаются менее чем за одну минуту не
>отправляются сообщения, хотя инциденты характерные для перезагрузки фиксируются в логе Nagios.
>В основном это относится к серверам на VMware.
>По остальным серверам(где перезагрузка или выключение занимает более 2 минут ) сообщения
>ходят как часы.max_check_attempts 3
normal_check_interval 1
retry_check_interval 1IMHO - алерт будет отправлен только если 3 попытки с интервалом в 1 минуту были безуспешными. Т.е. если лежит короче 3-х минут, то не будет. А сообщения об этом само собой в лог откладывает.
дык, не замечает он :)
надо свой скрипт писать, простейший пример - оргинальный скрипт запускать в цикле, с необходимым интервалом, проверять код возврата, если не ОК, тоже выходить с "не ОК", ну и смотреть что с таймаутами проверки.
>дык, не замечает он :)
>надо свой скрипт писать, простейший пример - оргинальный скрипт запускать в цикле,
>с необходимым интервалом, проверять код возврата, если не ОК, тоже выходить
>с "не ОК", ну и смотреть что с таймаутами проверки.Не замечает в смысле так прописан и ничего нельзя сделать или смысле так прописан и надо где-то подкорректировать
>>дык, не замечает он :)
>>надо свой скрипт писать, простейший пример - оргинальный скрипт запускать в цикле,
>>с необходимым интервалом, проверять код возврата, если не ОК, тоже выходить
>>с "не ОК", ну и смотреть что с таймаутами проверки.
>
>Не замечает в смысле так прописан и ничего нельзя сделать или смысле
>так прописан и надо где-то подкорректироватьЗамечает, но алерт отправляет только после 3-х "не ОК" м интервалом в 1 мин, т.е. не раньше чем через 3 минуты. Поставьте везде:
max_check_attempts 1Должен по идее тут же алерт отправлять, после первого "не ОК", а не после 3-го.
>[оверквотинг удален]
>>так прописан и надо где-то подкорректировать
>
>Замечает, но алерт отправляет только после 3-х "не ОК" м интервалом в
>1 мин, т.е. не раньше чем через 3 минуты. Поставьте везде:
>
>max_check_attempts
> 1
>
>Должен по идее тут же алерт отправлять, после первого "не ОК", а
>не после 3-го.Спасибо!! Попробуем.
Если у кого-то еще есть мысли, то буду рад выслушать.
max_check_attempts тоже,
но если ребут < 1 минуты, то есть вероятность что не заметит вообще, а минимальный интервал - минута, поэтому нужен свой скрип, который за минуту проверяет 2 или больше раз.
>max_check_attempts тоже,
>но если ребут < 1 минуты, то есть вероятность что не заметит
>вообще, а минимальный интервал - минута, поэтому нужен свой скрип, который
>за минуту проверяет 2 или больше раз.Спасибо!!!! Попробуем без скрипта сначала