V
Осталось понять что делать когда обе ноды упали, как их поднимать
Либо экспортером, кажется node_exporter умеет в сервисы на хосте и по его показаниям настроить автоматизацию, или прост спамить когда нода лежит. Мы проверяем с помощью blackbox каждую ноду и проббером проверяем работу проббера в целом, с точки зрения клиента.
Если кратко: когда всё упало - чинить, тут зависит от уровня критичности сервиса, если Mission Critical - не просыпаясь чиним, если Best Effort, можно и кофе успеть заварить, ну или глаза открыть, хотя бы