Телеграмм чат группы devops

Я про другое, человек писал, что он делает задачи SRE, и это обычный задачи инфраструктуры. По мне у SRE-роли есть свои особенности, а не просто приходить и чинить то, что упало когда упало

источник

12:27пожаловаться #4

СХ

Старый Хрыч... in DevOps Jobs - работа и аналитика

George Gaál

ну, ему хоть норм платят ?

280 вроде

источник

12:27пожаловаться #5

George Gaál in DevOps Jobs - работа и аналитика

Иван Коломиец

ну, с этим я согласен

источник

12:27пожаловаться #6

George Gaál in DevOps Jobs - работа и аналитика

Старый Хрыч

280 вроде

отличное бабло для Питера

источник

12:27пожаловаться #7

George Gaál in DevOps Jobs - работа и аналитика

я макс 300 в СПб видел

источник

12:27пожаловаться #8

СХ

Старый Хрыч... in DevOps Jobs - работа и аналитика

George Gaál

я макс 300 в СПб видел

хуевей больше платит

источник

12:28пожаловаться #9

СХ

Старый Хрыч... in DevOps Jobs - работа и аналитика

но у тебя как и у меня нет С1

источник

12:28пожаловаться #10

George Gaál in DevOps Jobs - работа и аналитика

C1?

источник

12:30пожаловаться #11

M T in DevOps Jobs - работа и аналитика

Яйца первый класс

источник

12:30пожаловаться #12

ДА

Дмитрий Андреев... in DevOps Jobs - работа и аналитика

George Gaál

C1?

скорее всего речь про уровень английского

источник

12:30пожаловаться #13

ДА

Дмитрий Андреев... in DevOps Jobs - работа и аналитика

ну или сорт яиц, тоже неплохо

источник

12:31пожаловаться #14

СХ

Старый Хрыч... in DevOps Jobs - работа и аналитика

George Gaál

C1?

английский

источник

12:31пожаловаться #15

George Gaál in DevOps Jobs - работа и аналитика

С0 круче

источник

12:31пожаловаться #16

Alex in DevOps Jobs - работа и аналитика

СВ круче 😀

источник

12:31пожаловаться #17

George Gaál in DevOps Jobs - работа и аналитика

I speak from my heart and it is good enough

источник

12:31пожаловаться #18

Nick Kritsky in DevOps Jobs - работа и аналитика

George Gaál

I speak from my heart and it is good enough

источник

12:34пожаловаться #19

George in DevOps Jobs - работа и аналитика

Иван Коломиец

Расскажи про то, как вы контролируете надежность ваших сервисов, какие метрики считаете для SLA/SLO? Как организованна работа по инцидентам - в идеале конечно на примере пары постмортенов =)

Для сла метрики стандартные - сколько не работал сервис с точки зрения клиентов. Там самые простые (если не погружатся в тонкости). То есть подсчёт по времени 50х ошибок (грубо говоря).

Так внутри конечно метрик больше. RPS по базам, по REST/HTTP запросам. Сколько каждый сервис тратил времени на запрос к базе, сколько и какой размер пакетов передавался, сколько и каких пкетов в итоге передано/получено от клиентов. Ну и базовые загруженность сетевых интерфейсов (дропы, pps, bw), диски (iops и т.п), ОЗУ, CPU. Стандартно довольно. Всё сведено на борду для саппорта 1/2 линии.
Если инциденты уровня "ой отвалился в 5 утра сервер от кластера немного поштормило (+n к времени запроса к базе например), но всё перебалансилось и стало хорошо" - решаются в штатное время. Уровня "АААА!!! ТУТ НИЧЕГО НЕ РАБОТАЕ ААААА!!!" - тогда уже могут текущего дежурного "дёвопса" поднять. Класска опять же.

По самим метрикам проблем нет совершенно. Объясняешь лиду нужной команды почему она нужна, какие значения должны выдаватся и частота. Дальше они делают, мы проверяем удовлетворила ли (потому что тут QA уже мало помогут и через них дольше).

Постмортеры довольно скучные так-то. Померло железо, но софт нормально не обработал это и "завис" продолжая отвечать на лайвнесс пробу. Из-за этого шедуллер не переназначил такой под на другую ноду. Что привео к n% деградации сервиса (те самы 50х-и по сути). Решение - правильная проба и баг в разработку.

Так что ничего прям уровня "мы проебали базу гитлаба" поведать не могу.

источник

12:35пожаловаться #20