Добрый день! Подскажите пожалуйста, по такой ситуации:
Есть кластер из двух IPC-500, этот кластер стоит на границе двух криптосетей. К этому кластеру подключено ~230 континентов по региону.
Уже несколько раз была проблема: при добавлении новой связи от этого кластера, отвязки/привязки обьекта, основная нода кластера уходит в ребут.
Чаще всего кластер корректно переходит на резерв, и ничего страшного не случается, но бывает что резервная нода оказывается "повисшей" (т.е. при подключении монитора к ноде - выводится Приложите идентификатор, и на идентификатор не реагирует).
И если резервная нода повисла - а основная ушла в ребут, при загрузке основной ноды кластер не поднимает все связи, и помогает только полная перезагрузка и основной и резервной ноды (т.е. перезагрузка всего кластера)
В ТП уже писали, ничем помочь не смогли. Может кто-то из практики подскажет, из-за чего это может быть? Слишком большая нагрузка при установке очередной связи между кластером и новым кш?
масштабы у меня меньше, кластер жирнее. проблема +/- такая же была. но бутало полностью кластер. либо терялись связи с другими кш. или даже просто с частью объектов за КШ. хотя и были случаи, когда АРМы из одной сети переставали общаться с кластером, а другие общались. в том числе при применении простых ПФ. даже не имевших отношений к этому кластеру)
моё решение - не было еще проблем таких, когда работы начал проводить все ИСКЛЮЧИТЕЛЬНО ночью. в нерабочее время. ни разу не бутался или терялись бы связи.
проблема была и на 3.7.5, и на 3.7.7. диагностировать не мог. ТП на стенде не могла воспроизвести. решение в своем случае написал)
ЕЩЕ есть БАГ если юзаете внешние криптосети. следите за ключами/сертами ВНЕШНИХ КРИПТОГРАФИЧЕСКИХ СЕТЕЙ. просрочится - упадёт ПО. ловил 2 раза. первый раз - о существовании бага не было известно. во второй раз провел аналогии по срокам и предшествующим событиям. подтвердили багу. в 3.9.х пообещали исправить. но падение было бы более глобальное, с полной перезаливкой ПО, а не просто бутанием ноды