Size: a a a

2020 November 24

VG

Vik Gamov in pro.kafka
@Component
class Process {
 @Autowired
 public void process(StreamsBuilder builder) {
   final KStream<String, String> test = builder.stream("test", Consumed.with(Serdes.String(), Serdes.String()));
   test.foreach((key, value) -> System.out.println("KV = " + key + ":" + value));
 }
}
источник

VG

Vik Gamov in pro.kafka
Работает все
источник

VG

Vik Gamov in pro.kafka
Ivan Grishaev
Ну а что
2020-11-24 14:39:50.293  INFO 54316 --- [-StreamThread-1] org.apache.kafka.streams.KafkaStreams    : stream-client [test-c383f970-3b0a-4051-9f3b-8c1c8b91bf3c] State transition from REBALANCING to RUNNING
KV = test:test
источник

VG

Vik Gamov in pro.kafka
kafka-console-producer --bootstrap-server localhost:9092 --topic test --property parse.key=true --property key.separator=,
источник

VG

Vik Gamov in pro.kafka
Есть предложение что у тебя где-то ошибка десереализации съедается
источник

IG

Ivan Grishaev in pro.kafka
спасибо, проверю это дело
источник

VV

Victor Vasiliev in pro.kafka
А чего не юзаешь jackdaw ?
источник

IG

Ivan Grishaev in pro.kafka
Victor Vasiliev
А чего не юзаешь jackdaw ?
Это еще предстоит; а так полезно разобраться, что под капотом.
источник
2020 November 25

YK

Yurii Khmelevskii in pro.kafka
Нормальный ли паттерн, когда kafka source connector полит базу данных почти в реальном времени, например каждые 50мс. Это будет cassandra с чтением CDC (change data capture)
источник

VG

Vik Gamov in pro.kafka
Yurii Khmelevskii
Нормальный ли паттерн, когда kafka source connector полит базу данных почти в реальном времени, например каждые 50мс. Это будет cassandra с чтением CDC (change data capture)
Если это не напрягает базу, то почему ьы и нет
источник

YK

Yurii Khmelevskii in pro.kafka
На сколько я понимаю, чтение CDC не влияет на производительность базы совсем
источник

VG

Vik Gamov in pro.kafka
Yurii Khmelevskii
На сколько я понимаю, чтение CDC не влияет на производительность базы совсем
Тогда в чем concern?
источник

YK

Yurii Khmelevskii in pro.kafka
Vik Gamov
Тогда в чем concern?
Спросил, так как может кто-то на опыте знает минусы этого подхода.
Планирую использовать cdc source коннектор как основной паттерн работы с сайд эффектами в реал тайм апи
источник

A

Anton in pro.kafka
Yurii Khmelevskii
Нормальный ли паттерн, когда kafka source connector полит базу данных почти в реальном времени, например каждые 50мс. Это будет cassandra с чтением CDC (change data capture)
У вас самодельный коннектор? Встреченные в интернете source коннекторы для cassandra работают только в bulk и incremental режимах, т.е. без CDC.
источник

YK

Yurii Khmelevskii in pro.kafka
Anton
У вас самодельный коннектор? Встреченные в интернете source коннекторы для cassandra работают только в bulk и incremental режимах, т.е. без CDC.
я использую этот коннектор https://debezium.io/documentation/reference/connectors/cassandra.html . Но пока у него есть проблемы с поддержкой cassandra 4. В третьей версии CDC работает не так как мне нужно
источник

A

Anton in pro.kafka
Yurii Khmelevskii
я использую этот коннектор https://debezium.io/documentation/reference/connectors/cassandra.html . Но пока у него есть проблемы с поддержкой cassandra 4. В третьей версии CDC работает не так как мне нужно
Какой паратметр в 50мс устанавливаете?
источник

YK

Yurii Khmelevskii in pro.kafka
Anton
Какой паратметр в 50мс устанавливаете?
в cassandra 4 это должен быть commitlog_sync_period_in_ms
источник

YK

Yurii Khmelevskii in pro.kafka
в cassandra 3x это не работает, так как в cdc_raw данные попадают только если накопились данные в коммит логе больше чем commitlog_segment_size_in_mb
источник

YK

Yurii Khmelevskii in pro.kafka
можно пойти странным путем, который придумал Yelp, который описан здесь https://engineeringblog.yelp.com/2019/12/cassandra-source-connector-part-1.html
> Commit log segment sizes are fixed. If the tracked table has a slow write rate, it may be a while before a segment completely fills up. This fill-up time is bound by creating a process separate from the CDC Publisher which writes to a “filler” table at a predictable rate. This table is replicated only in the CDC datacenter and is fully replicated to all nodes. To limit any performance impact, fewer large writes (~100K) are performed, only a single key is written to, and the data is aggressively TTL’ed.
но по-моему это жесь
источник

N

Nikolay in pro.kafka
Как вы делаете сайзинг машин( и другие параметры кластера) для кафки? Если например известен, что сроупут на запись будет N mb/sec. Как отсюда вывести необходимые параметра кластера?
источник