Шпаргалка по high availability от NetflixВкратце:
- Деплойте по регионам, а не везде сразу
- Blue/green (red/black) деплои
- Временные окна для деплоев (чтобы в пиковую нагрузку не попасть)
- Автоматизированные деплои хорошо, но убедитесь, что они не происходят во время, когда никого нет в офисе/у компа, чтобы подхватить прод, если что-то пойдёт не по плану
- Хаос инжиниринг (ну Нетфликс же)
- Прогоняйте все тесты, которые у вас есть перед выкаткой на прод (ваш Кэп)
- Трезво оценивайте баланс между автоматизацией и ручными действиями. Есть вещи, которые не стыдно потыкать ручками
- Регулярно ревьювьте настройки алертов/пейджинга
- Убедитесь, что можете в roll back
- Останавливайте деплой, если хосты не поднимаются
- При автоматическом деплое отправляйте сообщения ответственным командам
- Автоматизируйте не только сценарии, в которых всё хорошо, но и сценарии, когда что-то идёт не по плану
- Собирайте информацию о зависимостях перед деплоем, а не угадывайте состояние related сервисов