Телеграмм чат группы ru_devops страница 6807

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

DevOps

1309 membersпожаловаться на группу

2020 May 25

VS

Vladimir Smirnov in DevOps

но если "работало-работало и вдруг само сломалось" и никаких изменения нет - то с хорошей вероятностью железная проблема будет (например ошибки памяти, если память ECC и процессор умеет в edac, послидет за ce и ue каунтерами в /sys, нужный путь ищется по `find /sys -name '*edac'`)

источник

16:51пожаловаться #1

VS

Vladimir Smirnov in DevOps

либо что-то начало триггерить баг в ядре, потому что 3.16 это прям очень древнее

источник

16:52пожаловаться #2

VS

Vladimir Smirnov in DevOps

собственно если баг в ядре - трейсы скорее всего будут одинаковыми, если память - трейсы при панике будут разные, а также можно потенциально будет (если очень повезет или наоборот, неповезет) видеть бит-флипы в записях в базу или в файлы

источник

16:53пожаловаться #3

VS

Vladimir Smirnov in DevOps

но последнее уже как повезет

источник

16:53пожаловаться #4

AA

Andrey A in DevOps

ага, спс. Про netconsole посмотрим. Edac у нас мониторится (но поэтому серверу, да, походу упустили эту проверку)

источник

17:17пожаловаться #5

VS

Vladimir Smirnov in DevOps

ага, спс. Про netconsole посмотрим. Edac у нас мониторится (но поэтому серверу, да, походу упустили эту проверку)

можно ручками посмотреть после энного времени аптайма, ну так чисто чтоб понять что и как там

источник

17:26пожаловаться #6

AA

Andrey A in DevOps

ls -1 /sys/devices/system/edac/mc/mc0/csrow1/
ce_count
ch0_ce_count
ch0_dimm_label
ch1_ce_count
ch1_dimm_label
ch2_ce_count
ch2_dimm_label
ch3_ce_count
ch3_dimm_label
dev_type
edac_mode
mem_type
power
size_mb
subsystem
ue_count
uevent

вы прямо смотрите счетчики ue_count и ce_count? Я просто когда-то при добавлении проверки делал так: grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count, т.е. смотрел чуть другое. Или это в принципе одно и тоже?

источник

17:29пожаловаться #7

VS

Vladimir Smirnov in DevOps

ls -1 /sys/devices/system/edac/mc/mc0/csrow1/
ce_count
ch0_ce_count
ch0_dimm_label
ch1_ce_count
ch1_dimm_label
ch2_ce_count
ch2_dimm_label
ch3_ce_count
ch3_dimm_label
dev_type
edac_mode
mem_type
power
size_mb
subsystem
ue_count
uevent

вы прямо смотрите счетчики ue_count и ce_count? Я просто когда-то при добавлении проверки делал так: grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count, т.е. смотрел чуть другое. Или это в принципе одно и тоже?

я последний раз скрипты на edac писал лет 6 назад ) тогда я смотрел прямо по ch'ам и mc и даже заморочился для того железа которого было много сделать соответствие dimm_label -> маркировка на материнке

источник

17:30пожаловаться #8

VS

Vladimir Smirnov in DevOps

но как самое базовое можно смотреть на ce_count и ue_count, там вроде бы всегда сумма для этого контроллера

источник

17:31пожаловаться #9

DS

Dmitry Sergeev in DevOps

Привет всем! Здесь ведь можно будет задать вопрос не совсем про девопс? (замечал, что здесь могут обсуждать просто вопросы ОС и железа)
Если ближе к делу: есть железный сервер с ОС debian jessie 8.2

uname -a
Linux 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt20-1+deb8u1 (2015-12-14) x86_64 GNU/Linux

На сервере запущено довольно много сервисов (Elasticsearch, впн, докер (storage driver - aufs) контейнеры с сервисами). Сервер жил не тужил до недавнего времени. Периодически (за 2 недели это второе падение) он стопается наглухо. Есть скриншот call trace при первом падении .
Начал разбираться, при втором падении были следующая ситуация:
- в 22:20 сервер упал (отрапортовала система мониторинга + плюс отсутствие метрик с этого периода)
- по логам сервера (syslog, kern.log) сервер еще жил до 22:32 (писались логи докера, типа kernel: docker0: port 15(veth63b10e9) entered disabled state)
- в atop последние данные только за

22:20

- по метрикам никаких аномалий нету (метрики хоста, контейнеров, эластика). Сервер выполняет чисто служебные роли (на sata-диски конечно идет высокая нагрузка на запись из-за эластика, но так уже живем несколько лет (это только при мне, а так мб и дольше))

У нас как-то относительно была похожая ситуация с другим сервером (но там вроде в консоли были другие ошибки). Обновились до stretch и уже больше месяца, тьфу-тьфу, проблем нет. Чем руководствовались, что обновление может помочь? На сервере стоял докер c aufs, хотели посмотреть что будет когда станет overlay2))
Память на том другом сервере тестили только из под ОС (но старались в момент тестов все сервисы тушить, чтобы проверить максимальное кол-во памяти) - всё было OK.

Также все сервера в md-рэйде (1), смарты дисков конечно проверяли.

Следовательно есть несколько вопросов:
- как бы далее пытались понять, что с сервером мб не так? (снять дамп ядра - у меня не хватит навыков его прочитать и понять).
Обновить-то обновим, проблема может быть уйдет, но причина так и останется неясной. Сервер длительное время работал без проблем.
- ниже есть скриншот консоли в момент ошибки. Для меня малоинформативно. Есть подозрение, что когда смотрим в консоль через ipmi, мы просто не видим части информации (экран и так маленький, и всю важная инфа вполне могла быть просто промотана). Возможно ли вывод экрана физической консоли перенаправлять куда-либо? Погуглил обзорно, но что-то ничего не нашел. Если бы было это возможно, вполне вероятно, ошибка была до этого call trace с более ясным описанием.

очень похоже на проблему с железом. Если сервер сменить дешево, я бы сменил

источник

20:30пожаловаться #10

V

Привет коллегам! Сегодня столкнулся с проблемой установки prometheus в docker на Ubuntu Server 18.04

источник

23:09пожаловаться #11

V

Контейнер успешно создался но не запустился. Чекнул внутри контейнера логи. Ошибка msg="Error opening query log file" file=/data/prometheus/queries active err="open /data/prometheus/queries.active: permission denied"
panic: Unable to create mmap-ed active query log

источник

23:10пожаловаться #12

V

Может кто сталкивался и сможет помочь?

источник

23:11пожаловаться #13

p

pragus in DevOps

[XFS SUMMIT] Deprecating V4 on-disk format

источник

23:12пожаловаться #14

DK

Dmitriy K in DevOps

пермишны проверил?

источник

23:12пожаловаться #15

2020 May 26

GG

George Gaál in DevOps

Контейнер успешно создался но не запустился. Чекнул внутри контейнера логи. Ошибка msg="Error opening query log file" file=/data/prometheus/queries active err="open /data/prometheus/queries.active: permission denied"
panic: Unable to create mmap-ed active query log

у тебя озу часом не 512 мб на сервере?

источник

00:10пожаловаться #16

УП

Ушат Помоев... in DevOps

Шутки шутками, а у меня фронтенд на реакте один случай из десяти не билдится, потому что 4 Гб ОЗУ мало

источник

03:52пожаловаться #17

YD

Yuriy Dorogov in DevOps

Ушат Помоев

Шутки шутками, а у меня фронтенд на реакте один случай из десяти не билдится, потому что 4 Гб ОЗУ мало

Ахахах...это ты ещё Ангуляр не билдил...ему и 6Гб иногда бывает мало🤣

источник

04:32пожаловаться #18

DS

Dmitry Sergeev in DevOps

Ахахах...это ты ещё Ангуляр не билдил...ему и 6Гб иногда бывает мало🤣

а если Dockerfile написал фронтендер то и образ так будет весить =)

источник

08:20пожаловаться #19

V

у тебя озу часом не 512 мб на сервере?

2 гб

источник

08:41пожаловаться #20