Size: a a a

2019 June 07

VS

Vladimir Smirnov in uptime.community
Теперь
источник

VS

Vladimir Smirnov in uptime.community
Более детальный чем блогпост
источник

S

Stanislav in uptime.community
Vladimir Smirnov
А там постмортем опубликован
Так он и публиковал
источник

S

Stanislav in uptime.community
вот
источник

VS

Vladimir Smirnov in uptime.community
Stanislav
вот
Так это не постмортем
источник

VS

Vladimir Smirnov in uptime.community
Сравни с тем что по ссылке
источник

VS

Vladimir Smirnov in uptime.community
Ну и вот фраза еще
источник

VS

Vladimir Smirnov in uptime.community
Более детальный чем блогпост
источник

S

Stanislav in uptime.community
Понял, они его дополнили
источник

VS

Vladimir Smirnov in uptime.community
Stanislav
Понял, они его дополнили
Ну блогпост не был постмортемом, это так, мелкие детали пока не готов сам постмортем были
источник

SL

Stepan Legachev 🔒 in uptime.community
> Google engineers were alerted to the failure two minutes after it began, and rapidly engaged the incident management protocols used for the most significant of production incidents. Debugging the problem was significantly hampered by failure of tools competing over use of the now-congested network.

ухх
источник

S

Stanislav in uptime.community
Классика )
источник

S

Stanislav in uptime.community
Зафакапили сетку, стали звонить он-сайтам, ну и по кругу … времени очень много уходит
источник

S

Stanislav in uptime.community
Я практически уверен, что малом сегменте новая конфигурация не показала явной девиации, а когда изменение ушло на регион - сразу проявились нюансы
источник

S

Stanislav in uptime.community
Вряд ли там была ошибка, скорее прод-специфичные девиации полезли
источник

SL

Stepan Legachev 🔒 in uptime.community
и то, и другое
источник

SL

Stepan Legachev 🔒 in uptime.community
> the software initiating maintenance events had a specific bug, allowing it to deschedule multiple independent software clusters at once, crucially even if those clusters were in different physical locations.

> The network ran normally for a short period - several minutes - after the control plane had been descheduled. After this period, BGP routing between specific impacted physical locations was withdrawn, resulting in the significant reduction in network capacity observed by our services and users, and the inaccessibility of some Google Cloud regions.
источник

SL

Stepan Legachev 🔒 in uptime.community
вообще интересное сочетание факторов там конечно
источник

S

Stanislav in uptime.community
Чем больше слоев, тем веселее погремушки )
источник
2019 June 10

VR

Vladimir Renskiy in uptime.community
Коллеги а Upsource кто-нибудь пользуеься?
источник