Телеграмм чат группы proKafka страница 1126

Поэтому и возник вопрос - насколько вообще релевантно Кафку использовать для хранилки вот так в лоб или есть какие-то более элегантные и верные сценарии, как такой вопрос о хранении более 500 ТБ данных, можно решить?
Какие вообще лучшие практики в целом, если возникает подобная задача?

Почти год назад спрашивал разрабов кафки на счёт этого, собираются ли они делать оффлоад старых данных как это делает какой pulsar или pravega.io во внешний сторейдж типа s3/hdfs, получил ответ что есть наработки, но когда в прод пойдёт неизвестно

источник

13:31пожаловаться #6

Alex in pro.kafka

Хранить можно, но тогда нужно смириться с накладными расходами

источник

13:31пожаловаться #7

Alex in pro.kafka

Если вы монтируете локал диски без рейдоа, то не забудьте создать побольше партиций

источник

13:32пожаловаться #8

Alex in pro.kafka

Одна партиция это один фолдер на диске

источник

13:32пожаловаться #9

Alex in pro.kafka

Если подключено 20 дисков в разные точки монтирования и кафка пытается балансить партиции между ними то обычно ок, проблема что если появляются отдельные жирные партиции, то между 2мя дисками одну партицию не разбить, только рейды городить чтобы один непрерывный volume был

источник

13:33пожаловаться #10

Alex in pro.kafka

В остальном кроме плясок с жирными партициями и вручную их перебрасывания между дисками при остановленом брокере сильно проблем не видел

источник

13:36пожаловаться #11

Alex in pro.kafka

Но даже для балансинга по дискам у них был какойто тикет, но не факт что уже сделали его, год назад кафка никак не выводила наружу инфу сколько дисков и на каких какая партиция лежит

источник

13:38пожаловаться #12

Roman Ananyev in pro.kafka

@xhumanoid - спасибо большое за развернутый ответ! Тобой описанное это как раз сценарий который нам грозит =)

источник

13:41пожаловаться #13

Roman Ananyev in pro.kafka

И еще по дисковой подсистеме - вот может сходу для этих целей полку какую бахнуть, чем диски в серверах использовать?

источник

13:42пожаловаться #14

Alex in pro.kafka

Ну у нас были диски :) поэтому сразу и предупредил

источник

13:43пожаловаться #15

Alex in pro.kafka

Про полку думаю тут другие что подскажут

источник

13:43пожаловаться #16

Anatoly Soldatov in pro.kafka

Alex

Скоро уже
Обещали в 2020 году )

https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage

источник

19:16пожаловаться #17

Nikita Zhdanov in pro.kafka

Всем привет, подскажите плз, поймали ошибку при отправке сообщения: OutOfOrderSequenceException
Может кто сталкивался, как её победить?

источник

21:13пожаловаться #18

2019 December 06

Nikolay in pro.kafka

Nikita Zhdanov

А вы на гитхаба не смотрели в исходниках ?

источник

16:29пожаловаться #19

Nikita Zhdanov in pro.kafka

Nikolay

А вы на гитхаба не смотрели в исходниках ?

Ну я понял, что возникает при идемпотентной публикации сообщения если вдруг одно сообщение не отправилось - то следующее сообщение будет падать с этой ошибкой

Понял, что нужно кол-во retries ставить равным MAX_INT

Но не понял как вот сейчас пропихнуть сообщение

источник

16:32пожаловаться #20