Привет.
У меня 20 воркеров, которые делают одну и ту же работу в одних и тех же условиях, но почему-то у одних воркеров LAG большой, а у других маленький. Есть какие-то очевидные причины почему так может быть?
Сначала проверь распределение данных по партициям, хеширование несовершенно и вполне может быть, что у тебя одни партиции переполнены, в то время как другие пустуют. Если не это, то проверь байтрейт на все участвующие машины, если сетевая проблема, что случается часто, особенно на облаках, то некоторые воркеры просто физически не получают свои данные с той же скоростью, с которой их получают остальные. И только потом можно грешить на 1) виртуализацию, 2) рантайм и конфигурацию приложения и 3) железо в том порядке, в котором я озвучил. Это из моего личного опыта с такими проблемами.