Size: a a a

2017 December 27

VG

Vik Gamov in pro.kafka
Ввиду того, что ваш покорный слуга живет и работает в Штатах, последние несколько дней прибываю в Рождественских каникулах.
Поэтому было затишье в этом канале.
LinkedIn в твиторе для инженеров  https://twitter.Com/LinkedInEng  в выложил несколько интересных видосов

-история развития stream processing framework Apache Samsa
- все что вы хотели знать про Consumer Groups
- подробно о том, как работает Controller в Kafka кластере
- много мякотки на тему дисковой подсистемы - JBOD и Kafka

Напоминаю, что у нас появился чат https://t.me/proKafka
источник

NK

ID:1373407 in pro.kafka
Vik Gamov
Ввиду того, что ваш покорный слуга живет и работает в Штатах, последние несколько дней прибываю в Рождественских каникулах.
Поэтому было затишье в этом канале.
LinkedIn в твиторе для инженеров  https://twitter.Com/LinkedInEng  в выложил несколько интересных видосов

-история развития stream processing framework Apache Samsa
- все что вы хотели знать про Consumer Groups
- подробно о том, как работает Controller в Kafka кластере
- много мякотки на тему дисковой подсистемы - JBOD и Kafka

Напоминаю, что у нас появился чат https://t.me/proKafka
Спс
источник

VG

Vik Gamov in pro.kafka
ID:1373407
Спс
Чтобы не грустил
источник

DM

Daniel Matveev in pro.kafka
Примеры местами весьма странные - например, про долгий вызов punctuate - тут особо ничего не поможет, разве что буфер и отдельные потоки для кратковременных проблем. "Минусы" дсл вытекают из подхода к надежности и требуют лишь понимать принципы работы. В типичном etl батчевые процессы работают аналогично.

Про детали Processor познавательно.
источник

MC

Mikhail Chernyakov in pro.kafka
Roman Grebennikov
У нас данные из кафки вливаются в clickhouse для аналитики, а там дедупликация через ReplacingMergeTree. На стыке кафки и внешнего мира, как ни крути, боль, страдания и дубликаты.
а вы в кликхаус загружаете через https://clickhouse.yandex/docs/en/table_engines/kafka.html ?
источник

RG

Roman Grebennikov in pro.kafka
Mikhail Chernyakov
а вы в кликхаус загружаете через https://clickhouse.yandex/docs/en/table_engines/kafka.html ?
Нет. На тот момент этой фичи в кликхаусе не было, грузим по-старинке через http+json
источник

MC

Mikhail Chernyakov in pro.kafka
Roman Grebennikov
Нет. На тот момент этой фичи в кликхаусе не было, грузим по-старинке через http+json
собираетесь пробовать или все устраивает?
источник

N

Nick in pro.kafka
Roman Grebennikov
У нас данные из кафки вливаются в clickhouse для аналитики, а там дедупликация через ReplacingMergeTree. На стыке кафки и внешнего мира, как ни крути, боль, страдания и дубликаты.
Как определяете, через какое время отрабатывает мерж в кликхаусе? Или игнорируете при запросах последние сутки и возможные дубли в этот момент, или еще какие допущения? Или может у вас аналитика не критична к малому количеству дублей?
источник

RG

Roman Grebennikov in pro.kafka
дубликаты случаются только если при переливании данных что-то с грохотом упадет. Само приложение, причесывающее данные, написано на akka-streams, работает в k8s и для гладкого редеплоя слушает SIGTERM. При получении сигнала "пора умирать", оно останавливает consumer, записывает последний батч и коммитит оффсет в кафку. При таком подходе дубликаты - это что-то из ряда вон выходящее, но на практике иногда случается.
источник

N

Nick in pro.kafka
т.е. мерж кликхауса фактически перестраховка, а не решение проблемы дублей, ок спасибо
источник

_

_ in pro.kafka
Roman Grebennikov
дубликаты случаются только если при переливании данных что-то с грохотом упадет. Само приложение, причесывающее данные, написано на akka-streams, работает в k8s и для гладкого редеплоя слушает SIGTERM. При получении сигнала "пора умирать", оно останавливает consumer, записывает последний батч и коммитит оффсет в кафку. При таком подходе дубликаты - это что-то из ряда вон выходящее, но на практике иногда случается.
За счет чего устраняете дубликаты? Ид в бд запоминаете?
источник

RG

Roman Grebennikov in pro.kafka
_
За счет чего устраняете дубликаты? Ид в бд запоминаете?
источник

_

_ in pro.kafka
Аа да
источник

VG

Vik Gamov in pro.kafka
народ, а как вы по-русски говорите, data pipelines?
источник

MK

Max K in pro.kafka
нет, все и так понимают
источник

_

_ in pro.kafka
Конвейер
источник

_

_ in pro.kafka
)
источник

VG

Vik Gamov in pro.kafka
Max K
нет, все и так понимают
это я понимаю, я абстрак для конференции пишу - у меня всегда беда, когда пишу абстракты на русском
источник

MK

Max K in pro.kafka
Vik Gamov
это я понимаю, я абстрак для конференции пишу - у меня всегда беда, когда пишу абстракты на русском
тогда как @ohmygods123 сказал
источник

VG

Vik Gamov in pro.kafka
а twitter firehose?
источник