Товарищи, нужна помощь, продакшн в огне.
Есть пайплайн флинка где сильный бекпрешр появился (связано с увеличением трафика перед black friday). Но бекпрешур идёт походу от кафка продусера, то есть с самого последнего шага в пайплайне.
средний размер месаджа - 350КБ, партиций в топике 45, сейчас продьюсит где-то 760 msg/sec с параллелизмом 20, но метрики подозрительные:
batch-size-avg = ~100000
io-time-ns-avg = ~ 60000000000 (1 min)
io-wait-time-ns-avg = запредельно, около 2х часов
network-io-rate = ~90
outgoint-byte-rate = колеблется от 0 до дохуя
records-per-request-avg = 1
request-latency_max = 1sec
request-latency-avg = 8ms
io-wait-ratio = то 0, то 1
меня смущает гигантский io-wait-time-ns-avg. Какие есть варианты диагностирования и возможных твиков если проблема действительно в продюсере?