Size: a a a

2020 June 11

DK

Dmitriy K in DevOps
это вм или баре метал?
источник

I

Igor in DevOps
Vladimir Smirnov
а почему уверенность, что это процесс?
нет уверенности.
источник

I

Igor in DevOps
Navern
kernel.log гляньте
что искать?
источник

I

Igor in DevOps
Dmitriy K
это вм или баре метал?
баре метал
источник

DK

Dmitriy K in DevOps
ipmi логи ещё посмотри
источник

VS

Vladimir Smirnov in DevOps
@igor_dia включите netconsole и шлите ядрёны логи куда-то еще, что не так часто перезагружается. И в момент ребута смотри что там в логах прилетело последним
источник

T

Tamerlan in DevOps
Igor
Всем привет! Есть один нубский вопрос, но ответа в гугле я пока на него не нашел. Как узнать, какой процесс инициировал перезагрузку сервера? Через last/lastb смотрим и видим, что там никто не залогинен был. Но сервак периодически ребутается.
dmesg.old и messages
источник

VS

Vladimir Smirnov in DevOps
заодно проверьте что с watchdog’ом, были ли паники-оопсы, были ли еще какие-нибудь интересные сообщения вокруг перезагрузки.
источник

N

Navern in DevOps
Igor
что искать?
Кернел паники очевидно;)
источник

VS

Vladimir Smirnov in DevOps
если передаете при загрузке panic= чему-то то попробуйте увеличить число чтобы успеть глянуть на консоль до ребута
источник

AA

Andrey A in DevOps
у нас допом юзается еще snoopy для полного контоля кто-чего набирал в консоли
источник

I

Igor in DevOps
Navern
Кернел паники очевидно;)
упоминаний про panic независимо от регистра нет во всей папке /var/log
источник

AA

Andrey A in DevOps
посмотреть atop (перед тем как была произошла проблема)? посмотреть графики метрик по серверу и мб там есть аномалии?
источник

I

Igor in DevOps
dmesg: iTCO_wdt: unable to reset NO_REBOOT flag, device disabled by hardware/BIOS
источник

DK

Dmitriy K in DevOps
температура растет на сервере, он ребутается
источник

I

Igor in DevOps
Это может быть оно?
источник

N

Navern in DevOps
Igor
dmesg: iTCO_wdt: unable to reset NO_REBOOT flag, device disabled by hardware/BIOS
Не, вряд ли
источник

N

Navern in DevOps
Почитай внимательно логи
источник

I

Igor in DevOps
Dmitriy K
температура растет на сервере, он ребутается
возможно, но когда техподдержка проводила нагрузочное тестирование всю ночь, неисправностей не было выявлено
источник

I

Igor in DevOps
Navern
Почитай внимательно логи
что помимо паников можно поискать?
источник