Прошу совета, возможно кто-то решал подобную задачу - развернут консул кластер, есть 100+ приложений каждое в своей подсети с consul-агентом на хостах, доступы открыты только между конкретной подсетью приложения и подсетью consul-сервер.
Пока было около 20 приложений проблем особых не наблюдалось хотя в логах consul-агентов периодически шла ругань на недоступность соседних нод, при росте количества приложений начали появлятся периодические отвалы нод из кластера с сообщение в логе consul-сервера:
agent.server.memberlist.lan: memberlist: Marking app-node1 as failed, suspect timeout reached (2 peer confirmations)
я так понимаю, что consul-агенты на хостах рядом с приложением проверяют случайным образом соседей и если они продолжительное время недоступны то нода помечается как недоступная во всем кластере.
Есть ли вариант переложить проверки доступности только на consul-сервер (с которого все сетевые доступы есть) или такой опции нет и единственный вариант это открывать сетевые доступы между подсетями приложений?