Size: a a a

2020 September 01

MM

Maksim (M) M. in Accel-PPP
root@pr104:/var/log/accel-ppp# head -100 dhcp-disable-accel-ppp.log 
[2020-09-01 12:42:55]: debug: vlan-mon: notify 5 622 0806 0
[2020-09-01 12:42:55]:  info: ipoe: create vlan vlan622 parent eth3
[2020-09-01 12:42:55]: debug: libnetlink: RTNETLINK answers: File exists
[2020-09-01 12:42:55]: debug: cli: disconnect
[2020-09-01 12:42:56]: debug: vlan-mon: notify 5 204 0800 0
[2020-09-01 12:42:56]:  info: ipoe: create vlan vlan204 parent eth3
[2020-09-01 12:42:56]:  info: ipoe: start interface vlan204 (ifcfg=1,mode=L2,start=dhcpv4,shared=1,ip-unnumbered=1,username=lua:username_vlan)
[2020-09-01 12:42:56]: debug: vlan-mon: notify 5 621 0806 0
[2020-09-01 12:42:56]:  info: ipoe: create vlan vlan621 parent eth3
[2020-09-01 12:42:56]: debug: libnetlink: RTNETLINK answers: File exists
[2020-09-01 12:42:56]: debug: vlan-mon: notify 5 618 0800 0
[2020-09-01 12:42:56]:  info: ipoe: create vlan vlan618 parent eth3
[2020-09-01 12:42:56]: debug: libnetlink: RTNETLINK answers: File exists
[2020-09-01 12:42:56]: debug: vlan-mon: notify 5 205 0800 0
[2020-09-01 12:42:56]:  info: ipoe: create vlan vlan205 parent eth3
[2020-09-01 12:42:56]: debug: libnetlink: RTNETLINK answers: File exists
источник

MM

Maksim (M) M. in Accel-PPP
делаю reload - начинает создавать другой:
источник

D

Dimka88 in Accel-PPP
Видимо на это не насчитывалось
источник

MM

Maksim (M) M. in Accel-PPP
2020-09-01 12:44:03]: debug: cli: disconnect
[2020-09-01 12:44:09]: debug: vlan-mon: notify 5 618 0800 0
[2020-09-01 12:44:09]:  info: ipoe: create vlan vlan618 parent eth3
[2020-09-01 12:44:09]: debug: libnetlink: RTNETLINK answers: File exists
[2020-09-01 12:44:09]: debug: vlan-mon: notify 5 621 0800 0
[2020-09-01 12:44:09]:  info: ipoe: create vlan vlan621 parent eth3
[2020-09-01 12:44:09]: debug: libnetlink: RTNETLINK answers: File exists
[2020-09-01 12:44:10]: debug: cli: disconnect
[2020-09-01 12:44:10]: debug: cli: disconnect
[2020-09-01 12:44:10]: debug: vlan-mon: notify 5 622 0806 0
[2020-09-01 12:44:10]:  info: ipoe: create vlan vlan622 parent eth3
[2020-09-01 12:44:10]: debug: libnetlink: RTNETLINK answers: File exists
[2020-09-01 12:44:10]: debug: vlan-mon: notify 5 205 0800 0
[2020-09-01 12:44:10]:  info: ipoe: create vlan vlan205 parent eth3
[2020-09-01 12:44:10]:  info: ipoe: start interface vlan205 (ifcfg=1,mode=L2,start=dhcpv4,shared=1,ip-unnumbered=1,username=lua:username_vlan)
источник

MM

Maksim (M) M. in Accel-PPP
Dimka88
Видимо на это не насчитывалось
видимо да.   создам в ручную :(
источник

MM

Maksim (M) M. in Accel-PPP
Dimka88
Видимо на это не насчитывалось
а после второго  reload  появились и 618 и 621 :)  вот такой вот опыт :(
источник

MM

Maksim (M) M. in Accel-PPP
Dimka88
Попробуй логи всех демонов грепнуть по 618 нужно понять как удалялся интерфейс
нашел в логах другого демона:
[2020-09-01 12:10:52.573] vlan-mon: notify 5 618 0800 0
[2020-09-01 12:10:52.573] ipoe: create vlan vlan0.618 parent eth3
[2020-09-01 12:10:52.573] ipoe: vlan vlan0.618 not started

при этом  в конфиге:
interface=re:vlan7[0-9][0-9]\.2[0-9][0-9][0-9],ifcfg=1,mode=L2,start=dhcpv4,shared=0,ip-unnumbered=1,username=lua:username_vlan_mac
vlan-mon=re:vlan70[0-9],2000-2999
vlan-name=vlan%P.%N

А теперь самое интеренсое что именно в 12:10 я делал релоад конфига другого демона.  Ведать таки нужно запомнить что нельзя vlan-mon использовать в разных демонах
источник

AA

Artem Arnautov in Accel-PPP
Artem Arnautov
Добрый день!

возможно кто сталкивался и подскажет куда копать

есть сервер
E5-2650 v0 - 2 шт. (16 ядер всего, HT отключен), 32G Ram
карточка intel 82599ES

accel-ppp и shared вланы
accel-ppp version 1.12.0-72-ged7b287
bird версии 2 (fullview присутствует)
ipv6 + ipv6-pd
kernel 5.4.38-gentoo
ixgbe 5.7.1

плавно переносили наргузку со старого сервера на описанный выше
уточню сразу, что на старом accel-ppp не использовался
перенесли где-то 15 шаред вланов и 3000 абонов

переносили так
переключили 1 vlan = 100 - 300 пользователей и минимум в течении часа следующий влан не трогали

каждый раз при переключении влана на сервере кратковременно, но резко возрастала нагрука
LA стремительно рос
после нагрузка падала и LA находится в пределах 0.1 - 0.6

приступили к переносу еще 1го влана и тут нагрузка выросла LA больше 25 и accel-ppp упал
по watchdog произошел рестарт и началась длительная процедура удаления ipoe интерфейсов
самым быстрым вариантом для поднятия сервиса была перезагрузка сервера, что и сделали
после того как сервер загрузился и запустился accel-ppp наблюдаем рост LA до 25 и выше при достижении приблизительно 2к пользователей
и далее следует падение accel-ppp

еще перезагрузка - результат аналогичный падение accel-ppp

снимаем с порта на свитче который смотрит в сторону сервера половину вланов
таким образом остается приблизительно 1300 - 1400 пользователей
перезагружаем

нагрузка доходит до LA 24 и постепенно опускается
после того как LA опускается ниже 1 добавляем по одному влану на порт
наблюдаем скачки нагрузки LA от 9 до 18

в результате кол-во активных клиентов около 2500 и нагрузка меньше 1

вроде бы все хорошо и нужно искать более производительный сервер, но
прошли выходные и утром в понедельник когда львиная часть клиентов видит сны
снова упал accel-ppp

поднялись по предыдущему сценарию и начали убирать часть нагрузки на другой сервер
в продолжение к предыдущему  посту

увеличили только размер таблицы маршрутов для ipv6
20го числа произвели первую перезагрузку с проверкой
скачали accel-ppp version 1.12.0-92-g38b6104 с git репозитория
собрали с дебагом и с 4:30 до 5:30 произвели ряд перезагрузок с правленым конфигом с учетом
рекомендаций и со старым конфигом - падений зафиксировано небыло
оставили запущенный accel работать в gdb
неделя прошля без инцидентов
спустя неделю снова предупредили пользователей о работе и 27го августа провели следующе проверки

собрал версию указанную в предыдущем посте с опциями debug, вернул размер ipv6 таблицы, взяли конфиг из
предыдущего поста и в 4:30 произвели перезагрузку и при взлете пользователей accel упал
core файл размер - 1.3G  созданный Aug 27 04:40 имеем

после запустили версию 1.12.0-92-g38b6104 и она по сей день работала

при последнем запуске рабочей версии была допущена ошибка и отсутствовали корректные пары в dictionary
для radius
результатом был взлет 2.3к пользователей в пределах около 2 минут
после чего нагрузка опустилась
не устанавливались ограничения по скорости

ошибку исправили и произвели перезагрузку снова
взлет пользователей длился около 12-13 минут

и вот прошло времени чуток при запущенном демоне без gdb c 27 числа и на 6й день демон свалился
далее последовал рестарт

на текущий момент все работает

сложилось ощущение, что если демон работает в gdb то он ведет себя стабильней

до сих пор ответа почему падал найти не можем

кроме падения есть еще вопрос/предложение
возможно ли размазать нагрузку при установке шейперов на некоторое время ?
сделать fifo очередь
при перезагрузке демона (или всего сервера) ключевой вопрос доступности сервиса для клиентов
если ограничения по скорости будут применены на протяжении даже 20 минут, но все клиенты  работать уже
будут в течении 1 минуты и нагрузка на сервер будет значительно меньше - это будет крайне удобно
источник

D

Dimka88 in Accel-PPP
Я вот думаю оптимизации имеют роль -g
источник

D

Dimka88 in Accel-PPP
А шейпер через скрипты устанавливается что ли?
источник

D

Dimka88 in Accel-PPP
Плохо конечно что не получилось backtrace получить и узнать причину падения
источник

AA

Artem Arnautov in Accel-PPP
Dimka88
А шейпер через скрипты устанавливается что ли?
Нет шейпер ставит аксель
источник

AA

Artem Arnautov in Accel-PPP
Dimka88
Я вот думаю оптимизации имеют роль -g
С ними сегодня было падение
источник

AA

Artem Arnautov in Accel-PPP
Сегодня 1е число и в течении дня отключали пользователей партиями за неуплату
Было много дисконнектов от радиуса
источник

AA

Artem Arnautov in Accel-PPP
Dimka88
Плохо конечно что не получилось backtrace получить и узнать причину падения
при наличии бинарника и core файла его же можно получить
или я что-то путаю?
и то и другое имеется в наличии
источник

D

Dimka88 in Accel-PPP
Можно открыть корку старую
источник

D

Dimka88 in Accel-PPP
Ну скорее всего на этом же сервере нужны манипуляции
источник

D

Dimka88 in Accel-PPP
А чего подозрение на высокую нагрузку от шейпера?
источник

AA

Artem Arnautov in Accel-PPP
Dimka88
Ну скорее всего на этом же сервере нужны манипуляции
это возможно сделать как раз на том сервере где эта корка и была сделана
источник

AA

Artem Arnautov in Accel-PPP
Dimka88
А чего подозрение на высокую нагрузку от шейпера?
вопрос не в шейпере, а в конфигурировании шейпера
источник