Вводные:
Имеется стэк из 2 коммутаторов. baremetal ноды Прокса подключены 2-4 кабелями в них (сеть гигабит), настроен бонд balanced-alb и он отдан в единственный vmbr0. Используются влан и они настраиваются тэгами на интерфейсах ВМ (т.е внутри ВМ видно, например, 2 интерфеса в разные сети). И, обычно, сеть настраивается сразу после ввода сервера в строй, затем там запускаются ВМ.
Но не в этот раз, когда поставили 2 новых сервера ( X и Y) Сперва был установлен прокс, не настроен бонд, но заведены ВМ с вланами. После этого сеть была перенастроена (ifupdown2) и всё продлжило работать.
Небольшие проблемы начались на выходных, в логи стали падать ошибки вида
received packet on bond0.100 with own address as source address (на всех серверах и на роутерах) (кто бы их видел тогда ещё)
но всё работало без сбоев, пока на одном из 2 новых серваков не запустили ещё одну ВМ. Вот тут всё и встало.
В итоге, отключая\включая порты на коммутаторах и мониторя лог локализовал проблему на первом порту сервера Х.
Оказалось, что на первом порту Х висел тэг влан, потом ещё этот интерфей был добавлен в бонд.
Такую же хрень нашёл на сервере У, но она себя не проявляла