Имеет ли тут смысл "сообщать" тредам, которые безнадёжно пытаются законнектиться, чтобы они попробовали снова, или просто снизить timeout соединения и делать ретраи?
Я не заметил, ответа на этот вопрос. А вопрос очень интересный.
@qnikst, что Вы решили делать?
Проблема с низкими timeout'ами в том, что иногда сервис может отвечать долго и ничего нет лучше, чем подождать. Я на последней работе ставил таймауты в 30 секунд к некоторым сервисам. Они просто медленные были.
Как в Вашем случае отличаются ситуации: сервис переехал на другую ноду, поэтому соединение зависло, от ситуации когда сервис легитимно тупит?