Телеграмм чат группы hadoopusers страница 3036

коллеги, хочу на Spark Structured Streaming сделать доставку данных из Кафки в ДатаЛейк (бронзовый слой) и одновременно парсинг/процессинг этих данных (серебряный слой)
ну там лямбда-чики-пуки...
через 2 writeStream не хочу - буду дважды вычитывать данные и оффсеты разойдутся.
через foreachBatch не хочу - там нет атомарности двух df.write (или есть?)

что вы используете для такого? строго один writeStream в stage/bronze и отдельный поток приземленные в stage/bronze данные для парсинга/процессинга?

источник

18:56пожаловаться #5

SS

Sergey Sheremeta in Data Engineers

OI

Oleg Ilinsky in Data Engineers

Я в драг металлах не силён, но звучит как 2 стрима: один кафка -> сырые данные. Второй сырые данные -> предобработанные данные.

источник

19:17пожаловаться #7

OI

Oleg Ilinsky in Data Engineers

Там же из кафки данные в директорию кладутся?

источник

19:17пожаловаться #8

SS

Sergey Sheremeta in Data Engineers

и вторым стримом постоянно делать листинг базового каталога на предмет появления новых файлов?

источник

19:21пожаловаться #9

SS

Sergey Sheremeta in Data Engineers

ладно, если какая-нибудь DeltaLake-таблица, там вычитываются метаданные с путями до новых файлов

источник

19:22пожаловаться #10

AS

Andrey Sutugin in Data Engineers

Sergey Sheremeta

коллеги, хочу на Spark Structured Streaming сделать доставку данных из Кафки в ДатаЛейк (бронзовый слой) и одновременно парсинг/процессинг этих данных (серебряный слой)
ну там лямбда-чики-пуки...
через 2 writeStream не хочу - буду дважды вычитывать данные и оффсеты разойдутся.
через foreachBatch не хочу - там нет атомарности двух df.write (или есть?)

что вы используете для такого? строго один writeStream в stage/bronze и отдельный поток приземленные в stage/bronze данные для парсинга/процессинга?

Можно организовать подобие лямбда архитектуры и писать в foreachBatch в два слоя, но потом добивать серебро батчами, ну или сделать подобие транзакции, но тут думаю надо велосипедить

источник

19:45пожаловаться #11

SS

Sergey Sheremeta in Data Engineers

мне странно, что нет готовых решений... ведь все мы в той или иной степени черпаем тазиками из струяющейся жижи в болота данных

источник

19:49пожаловаться #12

ME

Max Efremov in Data Engineers

Но у каждого тазик свой, сделанный собственноручно)

источник

19:56пожаловаться #13

K

KrivdaTheTriewe in Data Engineers

Sergey Sheremeta

мне странно, что нет готовых решений... ведь все мы в той или иной степени черпаем тазиками из струяющейся жижи в болота данных

Так сделайте второй топик куда сырье льёте )

источник

19:56пожаловаться #14

SS

Sergey Sheremeta in Data Engineers

я хочу одним "черпком" тазика и резервуар с говном дополнить и сразу грубую очистку тяжелых фракций сделать. чтобы в потом в резервуар питьевой долить

источник

19:58пожаловаться #15

SS

Sergey Sheremeta in Data Engineers

если два черпальщика двумя тазиками будут черпать - то рано или поздно разойдутся по жиже внутри, если одним тазиком сначала в грязный чан вливать. то потом надо как-то быстро извлекать новую порцию второму черпальщику-очищальщику

источник

20:01пожаловаться #16

SS

Sergey Sheremeta in Data Engineers

(жизнь научила, что без грязного чана - нельзя! рано или поздно приходится в нем повторно юарахтаться)

источник

20:02пожаловаться #17

e

er@essbase.ru in Data Engineers

Spark ? Закешируй в середине и два раза write

источник

20:02пожаловаться #18

SS

Sergey Sheremeta in Data Engineers

er@essbase.ru

Spark ? Закешируй в середине и два раза write

через foreachBatch? нет гарантий атомарности... батрак черпанул один раз. влил в грязный чан и сдох от работы. чистый чан не дозаполнился, а оффсеты уже сдвинулись

источник

20:04пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

тьфу, наборот

источник

20:05пожаловаться #20