Телеграмм чат группы uptime_community страница 315

Так а в чем проблема:
- деградация бизнес метрик, или как написано в статье, около бизнес метрик
- количество ошибочных ответов свыше 1% от общего объёма ответов пользователям
- увеличение времени ответа в 3-4 раза относительно нормали;
+ Продолжительность вышеупомянутого в течении N сек/мин/интервалов_проверки;
Всё это говорит о деградации вашего сервиса/проекта, пора звать дежурного, врубать эскалацию и ставить отметку о начале инцидента.

источник

18:58пожаловаться #5

vk

vladimir kolobaev in uptime.community

Как только метрика/триггер вернулись в состояние ОК, и повторно не появились в течение часа/дня/какого-то_волшебного_мгновения, можно констатировать завершение инцидента и ставить ещё одну отметку. Разница во времени между ними легко высчитывается любым кроном.

источник

19:04пожаловаться #6

OP

Oleg Pozdnyakov in uptime.community

👍

источник

19:04пожаловаться #7

vk

vladimir kolobaev in uptime.community

Конкретно у нас за это всё чудо отвечает Jira. При инцидентах мы создаём в ней таски на дежурного(админа/дба/сетевика/девелопера_который_лил_в_монолит_свой_код_и_на_2_дня_автоматически_залетел_на_дежуство/любого_бедалагу_который_по_какой-то_причине_оказался_в_списке_дежурных_какой-либо_команды), в эти таски мы аттачим скрины графиков, логи, ссылки на предыдущие схожие таски, описания, инфу о состоянии дочерних зааффекченных метриках. И всё это дублируем в личку в Slack, добавляя туда кнопку "Acknowledge"(если на триггере описана эскалация), чтобы нашим ребятам небыло необходимости лазить в вебморду нашей системы алертинга.

источник

19:20пожаловаться #8

O

Olga in uptime.community

vladimir kolobaev

Так а в чем проблема:
- деградация бизнес метрик, или как написано в статье, около бизнес метрик
- количество ошибочных ответов свыше 1% от общего объёма ответов пользователям
- увеличение времени ответа в 3-4 раза относительно нормали;
+ Продолжительность вышеупомянутого в течении N сек/мин/интервалов_проверки;
Всё это говорит о деградации вашего сервиса/проекта, пора звать дежурного, врубать эскалацию и ставить отметку о начале инцидента.

Да, в теории это просто) но на практике намного сложнее, поэтому и интересно пообщаться с теми, кто это уже сделал

источник

19:39пожаловаться #9

O

Olga in uptime.community

vladimir kolobaev

Конкретно у нас за это всё чудо отвечает Jira. При инцидентах мы создаём в ней таски на дежурного(админа/дба/сетевика/девелопера_который_лил_в_монолит_свой_код_и_на_2_дня_автоматически_залетел_на_дежуство/любого_бедалагу_который_по_какой-то_причине_оказался_в_списке_дежурных_какой-либо_команды), в эти таски мы аттачим скрины графиков, логи, ссылки на предыдущие схожие таски, описания, инфу о состоянии дочерних зааффекченных метриках. И всё это дублируем в личку в Slack, добавляя туда кнопку "Acknowledge"(если на триггере описана эскалация), чтобы нашим ребятам небыло необходимости лазить в вебморду нашей системы алертинга.

Но таск ведь создаётся по алерту? А как фиксируете время начала проблемы?

источник

19:40пожаловаться #10

vk

vladimir kolobaev in uptime.community

Olga

Но таск ведь создаётся по алерту? А как фиксируете время начала проблемы?

Я же выше описал.

источник

19:40пожаловаться #11

O

Olga in uptime.community

Ну т.е. Время начала вручную указывается?

источник

19:42пожаловаться #12

vk

vladimir kolobaev in uptime.community

Olga

Но таск ведь создаётся по алерту? А как фиксируете время начала проблемы?

Тебя интересуют конкретные метрики и способы их анализа?

источник

19:42пожаловаться #13

O

Olga in uptime.community

vladimir kolobaev

Тебя интересуют конкретные метрики и способы их анализа?

Нет)

источник

19:42пожаловаться #14

vk

vladimir kolobaev in uptime.community

Olga

Ну т.е. Время начала вручную указывается?

Таск создаётся автоматически при алерте, Алерт формируется на основании анализа входящих метрик и их исторического поведения.

источник

19:43пожаловаться #15

O

Olga in uptime.community

vladimir kolobaev

Таск создаётся автоматически при алерте, Алерт формируется на основании анализа входящих метрик и их исторического поведения.

Ага, это и у нас так) просто время срабатывания алерта != времени начала проблемы иногда

источник

19:44пожаловаться #16

vk

vladimir kolobaev in uptime.community

Olga

Ага, это и у нас так) просто время срабатывания алерта != времени начала проблемы иногда

Зависит от многих факторов, но по опыту, время простоя до сработки алерта по тригеру ~= времени простоя до возвращения триггера в ОК. Поэтому время жизни инцидента приблизительно точное.

источник

19:47пожаловаться #17

S

Stanislav in uptime.community

Pavel T

Привет, а в Uptime комъюнити можно про даунтайм? =D
https://habr.com/company/okmeter/blog/422973/?utm_source=tg.uptime.community

Habr

Анатомия инцидента, или как работать над уменьшением downtime

Рано или поздно в любом проекте настает время работать над стабильность/доступностью вашего сервиса. Для каких-то сервисов на начальном этапе важнее скорость...

Статья написана наспех.

<время простоя>/<длительность периода> * 100 = процент доступности за период

Скорее недоступности, которую потом надо вычесть из 100 для вычисления доступности (аптайма).

источник

19:49пожаловаться #18

O

Olga in uptime.community

Согласна. Вот сейчас так и считаем приблизительно 🙁

источник

19:49пожаловаться #19

vk

vladimir kolobaev in uptime.community

Olga

Согласна. Вот сейчас так и считаем приблизительно 🙁

Закладывайте эти знания в ваши скрипты анализа инцидентов, и оно будет более точым. Тут уже на какие то секунды счёт - не уверен что это супер критично. Первоначально был вопрос как это делать автоматизировано. Ответ, я думаю, вы получили, руками ничего считать не надо

источник

19:54пожаловаться #20