История про то, как выстреливает техдолг:
Плейбуки по поднятию микросервисов - это тоже "код". Там могут быть, например, параметры. Если закодить какие-то условия, то всё может пойти не так.
Например, задаются параметры products
и products_etl
В тестовой среде уже было, что параметр products_etl
применялся вместо products
. С этим хотели разобраться, но отложили и "по-быстрому" исправляли руками...
Наступил день (позавчера), когда для прода эти два параметра стали разными, причём с разницей в 10 раз: 20 и 2... Конфиг поменяли днём, в полночь передеплоили ВСЕ сервисы, его якобы не использующие, потом ещё прошло 12 часов... И всё стало колом при повышении нагрузки до какого-то уровня... С момента начала деградации сервиса до его восстановления прошло примерно 80 минут :) (а 1 минута простоя - это какая-то сумма денег в рублях... в миллионах рублей :))