Коллеги , привет.
Столкнулся с проблемой. Накидайте пожалуйста вариантов, куда копать/что посмотреть??! У меня чего-то совсем идей нет уже)
В общем.
Гоняем регулярно (примерно раз в месяц), один и тот же тест, написанный на Gatling'е, но не суть на чем).
Тест по факту нагружает сайт - выполняет пользовательские сценарии, и в том числе, при всех передвижениях по сайту, грузит статику (css, js файлы и прочее).
Так вот есть у меня результаты этого теста уже примерно за год (~12 отчетов). Причем сохранились как отчеты gatling'а, так и снапшоты графиков нагружаемых сервисов из графаны. В общем есть с чем сравнить
И все бы хорошо, но последний прогон теста не прошел. Точнее assert'ы не прошли - ошибок таймаута стало сильно больше, много упавших процессов, статика стала сильно дольше грузиться... При этом всем, на графиках сервисов все так же, как и в предыдущих прогонах - нагрузки ничуть не больше было, даже чуть меньше.
Но тест то не проходит теперь! А раньше проходил. Куда копать то? выходит что появилась проблема с сетью? Может нужно еще и трассировку сети делать перед нагрузкой, чтобы в будущем хотя бы было с чем сравнивать? (типа новые узлы появились или еще что-то).