Есть неприятная история с таймаутами вида
ApplicationMsg=Error occurred at sending an event to the bus: error='Expiring 2 record(s) for events-52: 5171 ms has passed since batch creation plus linger time'
при этом:
происходит раз-два на две недели (порой вовсе пропадает на месяца)
в один момент времени проблема появляется только на одно продюсере. не было еще такого что бы в одно и то же время была проблема и на других продюсерах)
нагрузки на брокерах и на продюсерах в это время вовсе может не быть
таймаутится отправка на часть партиций одно брокера
ретраи тоже падают
Apache Kafka
0.10.2.13 брокера (игрались с разными настройками но в виду безрезультатоности вернулись к почти дефолтным настрокам)
проблема с самым активным топиком PartitionCount:64 ReplicationFactor:3
при это проблема возникает у продюсеров с размером месседжей выше среднего (средний менее 500 байт, максимальный 40k байт)
скорость записи в среднем 20 messages per second (максималка за прошлый месяц до 200)
max.in.flight.requests.per.connection=1
max.block.ms=3000
metadata.max.age.ms=1000
request.timeout.ms=5000
retries=10
buffer.memory=104857600
batch.size=65536
acks=1
по рейту сообщений - он разный, когда стартовали подбирали эти настройки под именно под работу продюсеров и пару лет жили без проблем с таймаутами
Может кто что сможет посоветовать?
P.S. как бы не хотелось списать на проблемы сети (ec2/vpc) не получается отловить проблему (продюсеров много и они в разных AWS аккаунтах). Да и происходит это редко. Кластер не под нагрузкой. Специфика задачи скорее большое количество консюмеров чем продюсеров. Топик __consumers_offsets вынесен на отдельные три ноды так как его использование значительно выше основного продуктового топика.