Всем ку.
Наткнулся на проблему отвала нод на GKE.
C 'PLEG is not healthy: pleg was last seen active 5m53.248396415s ago; threshold is 3m0s '
При этом на ноде начинаются проблемы с удалением подов и монтированием дисков.
Может кто сталкивался?
Короче, проблема в залипающем docker ps. Из-за этого когда докер пытается посмотреть несуществующий процесс из-за имплементации кэширования процессов (сравнить ps и docker ps) - он уходит в вечное раздумье. PLEG огорчается, кубер тоже что не сообщает нода свой статус и решает что нода умерла совсем, запуская процесс перебалансировки.