Size: a a a

2020 September 25

E

El-Yaz in Data Engineers
Alexander Gorokhov
Просто хочется что-то лучше чем имейлы которые будут спамить инбокс и слак канал который все замьютят. Что-то с удобной настройкой получателей, чтобы можно было видеть предыдущие похожие алерты, какие то теги и всякие графики появления ивента по времени
Со слаком это хорошая практика - сам так делал. А чтоб не отписывались - не добавляйте кого попало, а только заинтересованных людей, например, дата овнера
источник

E

El-Yaz in Data Engineers
Alexander Gorokhov
Просто хочется что-то лучше чем имейлы которые будут спамить инбокс и слак канал который все замьютят. Что-то с удобной настройкой получателей, чтобы можно было видеть предыдущие похожие алерты, какие то теги и всякие графики появления ивента по времени
Добавлю ещё, возможно кому-то покажется очевидным, но чтоб канал не воспринимался спамом, стоит постить сообщения, алерты только на неудачные события, чтоб люди знали, что если мсдж в этом канале - что-то пошло не так, а не обычный саксес)
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander Gorokhov
Просто хочется что-то лучше чем имейлы которые будут спамить инбокс и слак канал который все замьютят. Что-то с удобной настройкой получателей, чтобы можно было видеть предыдущие похожие алерты, какие то теги и всякие графики появления ивента по времени
пишите эти же события в какой-нибудь эластик и делайте по ним аналитику.. чаще даже наоборот сделано, они сначала в прометее (метрики) / эластике (события), а по ним алерт менеджер какой-нибудь
источник

АЖ

Андрей Жуков... in Data Engineers
ELK вообще зашибись - дашборды,  алерты,  вся хурма
источник

A

Andrey in Data Engineers
Всем привет) Кто-нибудь знает контакты компаний которые занимаются лицензированием CDP м HDP?
источник

AS

Andrey Smirnov in Data Engineers
Alexander Gorokhov
Просто хочется что-то лучше чем имейлы которые будут спамить инбокс и слак канал который все замьютят. Что-то с удобной настройкой получателей, чтобы можно было видеть предыдущие похожие алерты, какие то теги и всякие графики появления ивента по времени
как правило организационные проблемы техническими средствами не решаются, если человек отвечает за работу на проде, то почему он мьютит канал куда сыпяться алерты (если там много ложных срабатываний, то боритесь с этим)?
источник

AZ

Anton Zadorozhniy in Data Engineers
это может быть проявление alert fatigue (усталость от алертов?), довольно сложной задачи в любом operations; решается комбинацией технических и организационных мер, но и довольно часто вообще не решается и ведет к периодическим сбоям и выгоранию опсов
источник

R

Renarde in Data Engineers
Alexander Gorokhov
Просто хочется что-то лучше чем имейлы которые будут спамить инбокс и слак канал который все замьютят. Что-то с удобной настройкой получателей, чтобы можно было видеть предыдущие похожие алерты, какие то теги и всякие графики появления ивента по времени
в Zalando активно пользуются для этих целей OpsGenie.
Логика такая - все алерты поделены на степени критичности.
ниже 4 уровня - информационный алерт - будет email с SLA на ответ 3 дня
3 уровень - алерты по не самым критичным системам, сначала прилетает пуш, потом звонок на телефон дежурному, в случае не ответа в течении 10 минут -> звонок тимлиду и далее по цепочке
2 уровень - алерт+звонок на дежурного + звонок его тимлиду + директор департамента
1 уровень - звонок на дежурного + звонок его тимлиду + бизнес-овнер
источник

R

Renarde in Data Engineers
плюс есть Game Day, выглядит как-то так:
https://engineering.zalando.com/posts/2018/03/just-run-game-day.html
источник

R

Renarde in Data Engineers
правда с дата инженерингом мы натолкнулись на логическую проблему.
Вот допустим у нас есть батч-джоб который бегает по ночам, джоб начинается в 3 ночи, SLA на доставку данных - 6 утра. Во сколько нужно алертить инженера, если джоб работает, но не заканчивается к 6 утра? А главное - какой смысл такого алерта, если он прилетает в 4 утра - за два часа переподнять джоб?
источник

T

T in Data Engineers
плюсую opsgenie очень удобный сервис, у нас тоже большинство алертов через него
источник

DZ

Dmitry Zuev in Data Engineers
Порекламирую, мои одноклассники/одногруппники сделали https://amixr.io/
источник

DZ

Dmitry Zuev in Data Engineers
Сами выходцы из sre cisco. Делали типа под себя
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Zuev
Порекламирую, мои одноклассники/одногруппники сделали https://amixr.io/
плюсую, в хэнгопсе они раздавали ранний доступ, вообще молодцы
источник

AZ

Anton Zadorozhniy in Data Engineers
еще pagerduty могу порекомендовать, в двух местах использовал, удобно все
источник

ME

Max Efremov in Data Engineers
Renarde
правда с дата инженерингом мы натолкнулись на логическую проблему.
Вот допустим у нас есть батч-джоб который бегает по ночам, джоб начинается в 3 ночи, SLA на доставку данных - 6 утра. Во сколько нужно алертить инженера, если джоб работает, но не заканчивается к 6 утра? А главное - какой смысл такого алерта, если он прилетает в 4 утра - за два часа переподнять джоб?
Надо, чтобы за 10 минут отработал)
источник

ME

Max Efremov in Data Engineers
Не успеет - чинить есть время
источник

A

Andrey in Data Engineers
Andrey
Всем привет) Кто-нибудь знает контакты компаний которые занимаются лицензированием CDP м HDP?
🙏
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
правда с дата инженерингом мы натолкнулись на логическую проблему.
Вот допустим у нас есть батч-джоб который бегает по ночам, джоб начинается в 3 ночи, SLA на доставку данных - 6 утра. Во сколько нужно алертить инженера, если джоб работает, но не заканчивается к 6 утра? А главное - какой смысл такого алерта, если он прилетает в 4 утра - за два часа переподнять джоб?
если процесс занимает Х часов то цель по резолюшену должна быть 2Х или 3Х, иначе вы требуете невозможного
источник

AZ

Anton Zadorozhniy in Data Engineers
мы алертили по плану, если до какого-то времени не добрался до нужных шагов плана - это warning, можно посмотреть демографию новых входных порций и морально подготовить пользователя
источник