Телеграмм чат группы itarchitect страница 2454

типа, простые проблемы регионы сами починят, а сложные уже пусть следующий уровень разбирается?
Ну да, инциденты пулять в разные роли. Или алертить в разные списки получателей

источник

17:28пожаловаться #5

AL

Alexander Luchkov in Архитектура ИТ-решений

Alexey Pryanishnikov

типа, простые проблемы регионы сами починят, а сложные уже пусть следующий уровень разбирается?
Ну да, инциденты пулять в разные роли. Или алертить в разные списки получателей

Это всё понятно)) Меня интересует технически как поддержать это при условии, что ещё каналы связи слабые и ненадёжные.

источник

17:29пожаловаться #6

AL

Alexander Luchkov in Архитектура ИТ-решений

Я вот думал за репликацию заббиксовых баз и цепочку из серверов. Но из коробки такого нету.

источник

17:31пожаловаться #7

AP

Alexey Pryanishnikov in Архитектура ИТ-решений

я бы логи собирал с удалённых систем. При возможности. При невозможности - поднимать аларм, что инфа старая

источник

17:31пожаловаться #8

GK

Gennadiy Kruglov in Архитектура ИТ-решений

Alexander Luchkov

Это всё понятно)) Меня интересует технически как поддержать это при условии, что ещё каналы связи слабые и ненадёжные.

Нужна гарантированная доставка - стримить события в Kafka, разбирать на выходе и создавать инциденты в Help Desk

источник

17:31пожаловаться #9

AL

Alexander Luchkov in Архитектура ИТ-решений

Gennadiy Kruglov

Нужна гарантированная доставка - стримить события в Kafka, разбирать на выходе и создавать инциденты в Help Desk

У меня на мнемосхеме филиального админа должно высветиться "алярм", даже если центральный сервер недоступен.

источник

17:32пожаловаться #10

AP

Alexey Pryanishnikov in Архитектура ИТ-решений

ага, а мониторить упадения самой кафки будем другой кафкой)
Не, я за хардкор, мониторинг должен быть низкоуровневый, тем более в таких условиях

источник

17:32пожаловаться #11

GK

Gennadiy Kruglov in Архитектура ИТ-решений

Хотя как стримить, если каналов нет)) только опрос возможен

источник

17:33пожаловаться #12

AL

Alexander Luchkov in Архитектура ИТ-решений

Alexey Pryanishnikov

я бы логи собирал с удалённых систем. При возможности. При невозможности - поднимать аларм, что инфа старая

Это уже есть. Сислог поднят и работает)

источник

17:33пожаловаться #13

AL

Alexander Luchkov in Архитектура ИТ-решений

Я ж говорю, нужно распределённое вычисление алярмов с популяцией конфигурации)

источник

17:33пожаловаться #14

AL

Alexander Luchkov in Архитектура ИТ-решений

Вот тут товварищ @dreamore про федеративное управление в прометее поминал.

источник

17:34пожаловаться #15

AP

Alexey Pryanishnikov in Архитектура ИТ-решений

Alexander Luchkov

У меня на мнемосхеме филиального админа должно высветиться "алярм", даже если центральный сервер недоступен.

А, я понял. А если просто к одному источнику подключить несколько разных инстансов мониторинга? Один региональный, другой головной

источник

17:34пожаловаться #16

AL

Alexander Luchkov in Архитектура ИТ-решений

Alexey Pryanishnikov

А, я понял. А если просто к одному источнику подключить несколько разных инстансов мониторинга? Один региональный, другой головной

Сложно конфигурации распространять. Хотелось бы избежать. Но да, такой вариант рассматриваем.

источник

17:35пожаловаться #17

AP

Alexey Pryanishnikov in Архитектура ИТ-решений

так ли нужна честная федерация? не синхронизируется - и хрен бы с ним, всё равно мониторинг актуален минуты, потому это уже историческая статистика работы системы)

источник

17:35пожаловаться #18

AL

Alexander Luchkov in Архитектура ИТ-решений

Alexey Pryanishnikov

так ли нужна честная федерация? не синхронизируется - и хрен бы с ним, всё равно мониторинг актуален минуты, потому это уже историческая статистика работы системы)

У меня актуальность в часах.

источник

17:35пожаловаться #19

AL

Alexander Luchkov in Архитектура ИТ-решений

Т.е. 2 часа разрыва связи - в принципе ОК, если местные в курсе.

источник

17:36пожаловаться #20