Size: a a a

Церковь метрик

2021 November 05

V

Vyacheslav in Церковь метрик
Все теплейты сообщений у графаны - в коде. Так что единственный способ их поменять - форк нужной версии, поменять код, скомпилить и заменить бинарь на сервере. И делать так при выходе каждой новой версии графаны. Ну и не забывать про AGPL лицензию. Других вариантов - нет
источник

SB

Stanislav Buldakov in Церковь метрик
Sla между командами, поддерживающими оба сервиса? Какие-то договорённости о совместных действиях в такой ситуации? Разворачивание командой  А аналога сервиса Б под свои цели? Формальное описание процесса эскалации в данном случае?
источник

SB

Stanislav Buldakov in Церковь метрик
Сильно зависит от уровня коммуникаций между командами
источник

D🦆

Dmitry 🦆 in Церковь метрик
Две независимых команды, независимые циклы разработки сервисов, СЛА не заданы и договоренностей о надежности нет.
источник

D🦆

Dmitry 🦆 in Церковь метрик
Я понимаю, что в первую оченредь надо фиксить процессы. Но как?
источник

SB

Stanislav Buldakov in Церковь метрик
Командно-административно - эскалируете наверх с описанием проблемы. Не командно-административно - пытаетесь выйти на диалог напрямую и разрулить ситуацию
источник

AS

Aleksey Shirokikh in Церковь метрик
быть может можно отвечать не 500 а разумным дефолтом и кешем. это не всегда так но возможно так. может быть можно играть в доброго полицейского и разрешать действие которое регулирует встречный сервис.
каждый раз когда мы пользуемся такой опцией надо инкрементировать счётчик таких ответов и на него уже вешать sli
источник

AS

Aleksey Shirokikh in Церковь метрик
еще можно отвечать другим 500ым кодом и таким образом отличать свою 500 от встречной
источник

D🦆

Dmitry 🦆 in Церковь метрик
Допустим, после воспитатательных мероприятий количество 500 в сервисах-апстримах уменьшается на порядок.
Но получается, что команды сервисов-даунстримов все равно страдают от того, что апстримы изредка пятисотит?
источник

SB

Stanislav Buldakov in Церковь метрик
Кстати, чем плох 500 ответ от бэкэнда? Он как-то влияет на доступность фронтэнда?
источник

D🦆

Dmitry 🦆 in Церковь метрик
Я в первую очередь об этом подумал. Но ведь это же неправильно.
источник

SB

Stanislav Buldakov in Церковь метрик
Какая цель улучшения процесса то?
источник

D🦆

Dmitry 🦆 in Церковь метрик
Мешает работать, требуя отвлекаться на графаны/кибаны. Постоянно отвлекает, даже когда проблема не в твоем сервисе, а в апстриме.
источник

AS

Aleksey Shirokikh in Церковь метрик
я не понимаю в чём неправильность. у вас ведь
>Две независимых команды, независимые циклы разработки сервисов, СЛА не заданы и договоренностей о надежности нет.

почему статус коды связаны ?
источник

SB

Stanislav Buldakov in Церковь метрик
Ну уберите из алертов эти ситуации…
источник

SB

Stanislav Buldakov in Церковь метрик
Если проблема только в картинках в графане/кибане
источник

D🦆

Dmitry 🦆 in Церковь метрик
Хм, интересный вопрос о том, как это сделать 🤔
Сейчас алерт основан на количестве 500 от сервиса в эластике. Мы не знаем, по какой причине этот 500.
Выводить в логи дополнительную информацию о том, что ошибка из-за апстрима?
источник

SB

Stanislav Buldakov in Церковь метрик
Или делать свой 50х ответ при получении 500 от бэкэнда. И убирать его из расчёта количества 500 для фронтэнда
источник

D🦆

Dmitry 🦆 in Церковь метрик
У нас формально получается, что 500 код от сервиса-даунстрима при ошибке 500 в апстриме верный.
Это обычный Internal Server Error.
источник

D🦆

Dmitry 🦆 in Церковь метрик
Да, я в первую очередь подумал про отдельный код.
источник