Добрый день!
возможно кто сталкивался и подскажет куда копать
есть сервер
E5-2650 v0 - 2 шт. (16 ядер всего, HT отключен), 32G Ram
карточка intel 82599ES
accel-ppp и shared вланы
accel-ppp version 1.12.0-72-ged7b287
bird версии 2 (fullview присутствует)
ipv6 + ipv6-pd
kernel 5.4.38-gentoo
ixgbe 5.7.1
плавно переносили наргузку со старого сервера на описанный выше
уточню сразу, что на старом accel-ppp не использовался
перенесли где-то 15 шаред вланов и 3000 абонов
переносили так
переключили 1 vlan = 100 - 300 пользователей и минимум в течении часа следующий влан не трогали
каждый раз при переключении влана на сервере кратковременно, но резко возрастала нагрука
LA стремительно рос
после нагрузка падала и LA находится в пределах 0.1 - 0.6
приступили к переносу еще 1го влана и тут нагрузка выросла LA больше 25 и accel-ppp упал
по watchdog произошел рестарт и началась длительная процедура удаления ipoe интерфейсов
самым быстрым вариантом для поднятия сервиса была перезагрузка сервера, что и сделали
после того как сервер загрузился и запустился accel-ppp наблюдаем рост LA до 25 и выше при достижении приблизительно 2к пользователей
и далее следует падение accel-ppp
еще перезагрузка - результат аналогичный падение accel-ppp
снимаем с порта на свитче который смотрит в сторону сервера половину вланов
таким образом остается приблизительно 1300 - 1400 пользователей
перезагружаем
нагрузка доходит до LA 24 и постепенно опускается
после того как LA опускается ниже 1 добавляем по одному влану на порт
наблюдаем скачки нагрузки LA от 9 до 18
в результате кол-во активных клиентов около 2500 и нагрузка меньше 1
вроде бы все хорошо и нужно искать более производительный сервер, но
прошли выходные и утром в понедельник когда львиная часть клиентов видит сны
снова упал accel-ppp
поднялись по предыдущему сценарию и начали убирать часть нагрузки на другой сервер