Size: a a a

2020 March 09

VG

Vik Gamov in pro.kafka
Ivan Ponomarev
В общем. Похоже, что полностью корректное решение этой задачи, с окнами и стрианием старых записей по retention, описано здесь: https://kafka-tutorials.confluent.io/finding-distinct-events/kstreams.html
Я сегодня изучал вопрос и проводил эксперименты. Не согласен, что там используется Transformer вместо ValueTransformer (это может привести к лишнему репартиционрированию дальше по конвейеру), но в целом  корректно

А вообще, в KStreamsAPI явно нужен метод distinct(TimeWindows, EventIdExctractor)
Наши свой корректный и прошли PR
источник

VG

Vik Gamov in pro.kafka
Ivan Ponomarev
я на самом деле просто подсмотрел, как используется JSonSerde у меня... если есть способ элегантнее, с удовольствием заиспользую сам
ну гари ответил по делу - если не передавать десериалайзер в конструктор фабрики, то спринг сделает все сам
источник

AZ

Anton Zadorozhniy in pro.kafka
Дамы и господа, а кто-то поддерживает у себя пакетный тулинг для выгрузки из Кафки куда-нибудь в BigQuery или оракл наприме? я пытаюсь систематизировать подходы, видел у клиентов connect коннекторы со специальными настройками для батча, тулинг на спарке и флинке, может кто-то еще что-то использует, или видел открытые тулы для этого?
источник

λ

λλ in pro.kafka
Anton Zadorozhniy
Дамы и господа, а кто-то поддерживает у себя пакетный тулинг для выгрузки из Кафки куда-нибудь в BigQuery или оракл наприме? я пытаюсь систематизировать подходы, видел у клиентов connect коннекторы со специальными настройками для батча, тулинг на спарке и флинке, может кто-то еще что-то использует, или видел открытые тулы для этого?
Руками пишу делов на день
источник

AZ

Anton Zadorozhniy in pro.kafka
λλ
Руками пишу делов на день
на спарке каком-нибудь?
источник

λ

λλ in pro.kafka
Anton Zadorozhniy
на спарке каком-нибудь?
Fs2 + скала,  но можно на чем угодно
источник

AZ

Anton Zadorozhniy in pro.kafka
λλ
Fs2 + скала,  но можно на чем угодно
ну это просто библиотека, как делаете масштабируемость, супервижен?
источник

λ

λλ in pro.kafka
Anton Zadorozhniy
ну это просто библиотека, как делаете масштабируемость, супервижен?
Что подразумевается по этим всем?
источник

λ

λλ in pro.kafka
Каждый партишен в отдельном потоке, чекпоинтинг со сторингом офсета и ретраями не достаточно?
источник

AZ

Anton Zadorozhniy in pro.kafka
λλ
Что подразумевается по этим всем?
ну как запускаете на пачке серверов, как следите чтобы упавшие процессы поднимались заново?
источник

AB

Andriy Bashuk in pro.kafka
Привет ребят. ПОдскажите пожалуйста, могу ли я перечитать сообщения с определенного id в оффсете?
источник

λ

λλ in pro.kafka
Anton Zadorozhniy
ну как запускаете на пачке серверов, как следите чтобы упавшие процессы поднимались заново?
Вы не разработчик?
источник

AZ

Anton Zadorozhniy in pro.kafka
λλ
Вы не разработчик?
разработчик, а что?
источник

AZ

Anton Zadorozhniy in pro.kafka
λλ
Каждый партишен в отдельном потоке, чекпоинтинг со сторингом офсета и ретраями не достаточно?
ну то есть у вас просто стендэлоун приложение на скале, правильно я понял?
источник

λ

λλ in pro.kafka
Anton Zadorozhniy
ну то есть у вас просто стендэлоун приложение на скале, правильно я понял?
Да, цель просто перегнать данные и устоять перед фейлами консумера, парсинга и сделать делупликацию и тд
источник

λ

λλ in pro.kafka
Если у вас более глобальная цель то ето не 1 день
источник

λ

λλ in pro.kafka
Бигквери клиент вроде больше чем 1 продюсер пертейбл данные не умеет писать могу ошибаться, запись батчами по 10к
источник

λ

λλ in pro.kafka
Я про жаба клиент
источник

AZ

Anton Zadorozhniy in pro.kafka
λλ
Да, цель просто перегнать данные и устоять перед фейлами консумера, парсинга и сделать делупликацию и тд
я спрашивал про пакетные выгружалки, у них цель не просто перегнать данные, а сделать это максимально быстро (то есть иметь возможность разделить работу), использовать пакетные интерфейсы для целевой системы, не потерять/не задвоить данные, ну и всякие пост-хуки прицепить чтобы дальше оркестрацию толкнуть
источник

AZ

Anton Zadorozhniy in pro.kafka
для bigquery как раз видел выгружалку на флинке которая делает это через cloud storage
источник