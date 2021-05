2.23 , Аноним ( 20 ), 22:56, 17/05/2021 [^] [^^] [^^^] [ответить] –1 + / – Видимо другие системы мониторинга вы не пробовали: prometeus, statsd, TIG (впрочем и другие стеки с influxdb), да даже самописные системы пишушие в эластик с кликхаусом вполне могут выдержать сотни тысяч элементов (тут гораздо важнее как быстро это будет обрабатываться, в заббиксе надо заметить это происходит быстро, а потом еще каких именно элементов и как часто).

3.24 , Онаним ( ? ), 23:05, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Я попробовал заливать то, что нам надо, в influx. Он банально лёг.

В хипстерометеусе упорядочить несколько сот тысяч элементов с триггерами - это очень проблематично.

Картинки для менеджеров с сервисами - не нужны, точнее то, что нужно, рисуем через API. Больше важно понимать, что вообще в целом творится - без обобщений, потому что мониторинг используется для трекинга ситуаций, а не "айайай всё упало сейчас будем разбираться почему". Надо знать, где именно упало.

4.53 , Аноним ( 52 ), 01:54, 18/05/2021 [^] [^^] [^^^] [ответить] + / – > Я попробовал заливать то, что нам надо, в influx. Он банально лёг. Если с вашей нагрузкой справляется Zabbix - значит, справится и студент с блокнотом.

Положить в таких условиях специализированную TSDB для мониторинга - это надо уметь. > В хипстерометеусе упорядочить несколько сот тысяч элементов с триггерами - это очень проблематично. Но вполне решабельно. В отличие от заббикса, где уже на десяти серваках начинается треш и угар.

3.25 , Онаним ( ? ), 23:06, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Ну как каких. Допустим несколько десятков тысяч абонентских портов надо раз в минуту сканить на трафик и ошибки.

4.26 , Онаним ( ? ), 23:08, 17/05/2021 [^] [^^] [^^^] [ответить] + / – (потому что SLA)

Плюс несколько тысяч портов концентраторов для всех остальных.

Плюс активное оборудование в ядре и на оконечках.

Плюс состояние всей здоровущей серверной фермы, от банальных CPU/RAM до "залезть в MegaRAID и iDRAC за состояниями".

4.27 , Онаним ( ? ), 23:09, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Количество каналов в астериске надо сканить.

На софтсвитчах парсятся внутренние файлы базы данных и сливаются через sender лимиты и загрузка транков - жёстким оптом, по одному сливать десятки тысяч транков очень накладно.

И т.д. и т.п.

4.28 , Онаним ( ? ), 23:10, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Managed SIP PBX ещё надо массово за задницу трогать интервально с внешней прокси - на предмет того, не открыл ли их горе-юзер во внешний мир голым задом.

4.29 , Онаним ( ? ), 23:11, 17/05/2021 [^] [^^] [^^^] [ответить] + / – И много всякой прочей хренотени, типа очередей почты, состояний UPS, etc, etc, etc, etc.

Очень много калькулируется. Раньше разбирали всякую оптом приходящую с железа фигню скриптами, теперь разбираем все эти кастомные консольные выводы в JS - очень удобно.

4.30 , Онаним ( ? ), 23:11, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Есть вообще извраты - например DWDM, который имеет свойство отвечать на SNMP через раз.

4.31 , Онаним ( ? ), 23:13, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Но самое страшное - это управляемые клиентские железки, которые стоят на обслуживании. Там может попасться и циска, и всякие разные файрволы, и чёрт лысый. У всего это счастья по 5-10 портов, которые тоже надо мониторить, и всё это счастье может рандомно уходить в оффлайн.

3.33 , Онаним ( ? ), 23:22, 17/05/2021 [^] [^^] [^^^] [ответить] + / – https://paste.pics/2a2a473cd22838c2a3e1e30d2fd7f24b Вот как-то так и живём. Это один активный сервер (с репликацией базы в сторону standby запаски), на котором и MariaDB, и сам Zabbix (инфу собирают прокси, сам Zabbix собирает только состояние собственное и проксей), и вёб-морда со всякими внешними использующими API приблудами, в т.ч. для отчётов. Огромное количество disabled items/triggers - следствие унификации - когда через API заливается новая железка, Zabbix детектит с неё базовую типовую информацию - какую сможет вытащить для типовых железок, далее скрипты по этой информации определяют точный тип, и включают нужное. Если на ходу железку заменили, собственно ненужное выключается, нужное включается. Нужно это потому, что в CRM встречается левая информация, например забыли внести замену. Административно это всё решается, но это уже постфактум, а мониторинг страдать не должен :)

3.42 , Онаним ( ? ), 23:43, 17/05/2021 [^] [^^] [^^^] [ответить] –1 + / – Эластик у нас под сбор системных логов ныне, и уже в планах уйти с него на InnoDB + FTS.

Потому что начало течь и ложиться, а растягивать на 3-4 сервера ради простейшей, в общем-то, задачи - не хочется, логи доставки почты нормально на InnoDB живут, при том, что суточный объём куда больше.

Кликхаус не вариант, от слова "совсем".

4.44 , Онаним ( ? ), 23:47, 17/05/2021 [^] [^^] [^^^] [ответить] + / – (ложится конечно не часто, и это не вот как страшно, multi-tiered доставка спасает, всё, что не залилось, оседает на промежуточных узлах, и r/o standby позволяет не особо всё это замечать читателям, но всё равно парит)

2.40 , terryfilch ( ok ), 23:38, 17/05/2021 [^] [^^] [^^^] [ответить] –1 + / – попробуй https://glaber.io/repo/ и потом расскажешь, во сколько раз 1 сервер может лучше работать чем zabbix default

3.41 , Онаним ( ? ), 23:39, 17/05/2021 [^] [^^] [^^^] [ответить] + / – Открыл.

Увидел Clickhouse.

Закрыл.

4.54 , Аноним ( 52 ), 01:56, 18/05/2021 [^] [^^] [^^^] [ответить] + / – Кажется, понимаю, почему вы так любите zabbix. Вы органически не переносите, когда что-то не тормозит.