Size: a a a

2021 June 16

ВМ

Владимир Муковоз... in ru_proxmox
а пока рестарта нет будут проблемы при работе с ZFS
источник

ВМ

Владимир Муковоз... in ru_proxmox
# cat /etc/modprobe.d/zfs.conf 
options zfs zfs_prefetch_disable=1
options zfs zfs_arc_sys_free=2147483648

Кто подскажет, это корректный синтаксис?
источник
2021 June 17

AC

Alexandru Covalschi in ru_proxmox
Привет, рассказываю вам печальную историю. Так вышло, что при настройке сети один человек не учел того, что был настроен port-channel. По итогу мы получили вещание влана с проксмоксом на всю сеть и ужасный вапр-шторм. В результате этого прокмокс-кластер развалился. После локализация и исправления сетевой проблемы ноды начали подыматься, но не все и не сильно нормально. На некоторых серверах через systemd не подымается fuse, приходится подымать pve-cluster вот так:
umount -l /etc/pve && pmxcfs -d -f -l
На других с фьюзом все хорошо, но pve-manager никак не хотел запускаться (висел в waiting for quorum), пока мы не догадались поменять сетевую карту и/или мак текущей карты. После этого сбоящие ноды поднялись, но упали те, которые работали раньше нормально. Повторение такой же процедуры помогло на всех, кроме одной ноды, в которой до сих пор ожидается кворум.
источник

AC

Alexandru Covalschi in ru_proxmox
Несмотря на то, что большинство нод работает, друг-друга они не видят. И это полная катастрофа. Есть подозрение, что нам где-то забанили маки и мультиикаси/юникаст, но выборочные тесты этого не показали. Продакшен еще идет и полновесных тестов провести не могу.
источник

AC

Alexandru Covalschi in ru_proxmox
Я с проксмоксом очень на Вы (вижу его можно сказать в первый раз)
источник

AC

Alexandru Covalschi in ru_proxmox
Можете подсказать, как восстановить связность нод? Как спасти кластер? Что читать
источник

AC

Alexandru Covalschi in ru_proxmox
источник

R

Roman in ru_proxmox
Не нужно менять мак и сетевые на хосте. Логи и для начала перезапустить коросинк
источник

AC

Alexandru Covalschi in ru_proxmox
Понять бы вообще какие логи читать :С
источник

AC

Alexandru Covalschi in ru_proxmox
Так, кажется я начинаю втыкать, что waiting for quorum может быть связано с тем, что в логе коросинке есть link down
источник

AC

Alexandru Covalschi in ru_proxmox
corosync[27204]:   [KNET  ] loopback: send local failed. error=Resource temporarily unavailable
источник

AC

Alexandru Covalschi in ru_proxmox
Roman спасибо большое, что направили в нужное русло, все починил.
#решение
Ну как починил - последовательный рестарт коросинка и после последовательная перезагрузка всех нод все починило.
Не хочу тагать посреди ночи, надеюсь моя благодарность дойдет :)
источник

AU

Aleksandr U. in ru_proxmox
Повесь #проблема в сообщение
источник

ВМ

Владимир Муковоз... in ru_proxmox
не видят в каком смысле?, может mtu слишком большой?
источник

AC

Alexandru Covalschi in ru_proxmox
Уже все решилось, можно сказать, что у меня 1020 человек вместо утенка. Ну хоть не тимлид, прогресс уже
источник

AC

Alexandru Covalschi in ru_proxmox
все были запущены в local режиме
источник

AU

Aleksandr U. in ru_proxmox
Тэг нужен для того, чтобы люди могли найти вопрос и решение
источник

AU

Aleksandr U. in ru_proxmox
Если конечно вы пометили это
источник

AU

Aleksandr U. in ru_proxmox
Не стоит быть эгоистом
источник

AC

Alexandru Covalschi in ru_proxmox
пометил
источник