Телеграмм чат группы hadoopusers страница 3038

sourceToBronze = spark.readStream.format("kafka").load().writeStream.save(bronzeDir)
bronzeToSiver = spark.readStream.load(bronzeDir).apply(myCoolTransformation).save(silverDir)

источник

20:24пожаловаться #5

SS

Sergey Sheremeta in Data Engineers

"spark.readStream.load(bronzeDir)" - вот эту штука эффективно работает над обычной паркет-таблицей/каталогом?

источник

20:25пожаловаться #6

R

Renarde in Data Engineers

Sergey Sheremeta

"spark.readStream.load(bronzeDir)" - вот эту штука эффективно работает над обычной паркет-таблицей/каталогом?

если это S3/ADLS, будет больно от ценника ListFiles вызовов
если это HDFS, в целом не страшно, и вполне норм над паркетом

источник

20:28пожаловаться #7

S

Stanislav in Data Engineers

Там были какие то подводные камни на этот счёт, в сстриминге с сурцом хдфс вроде

источник

20:30пожаловаться #8

S

Stanislav in Data Engineers

Чисто на вскидку вопрос, а почему не хранить этот самый сырой слой в самой кафке тогда? Репликации такая же, сжатие такое же, данные как есть

источник

20:32пожаловаться #9

S

Stanislav in Data Engineers

Если хочется, сделать архивный кластер с большим ретеншном

источник

20:33пожаловаться #10

R

Renarde in Data Engineers

Stanislav

Чисто на вскидку вопрос, а почему не хранить этот самый сырой слой в самой кафке тогда? Репликации такая же, сжатие такое же, данные как есть

в компаниях с клаудом так не делают потому что:
- cloud-based кафка (или аналог) дороже чем object storage (с учетом ценника за сеть)
- потребность в GDPR hard delete where id=XXX
- как управлять правами доступа?

если все онпрем - ну наверное можно, только зачем головняк с настройкой архивного кластера?

источник

20:38пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

Renarde

в компаниях с клаудом так не делают потому что:
- cloud-based кафка (или аналог) дороже чем object storage (с учетом ценника за сеть)
- потребность в GDPR hard delete where id=XXX
- как управлять правами доступа?

если все онпрем - ну наверное можно, только зачем головняк с настройкой архивного кластера?

Кафка давно поддерживает удаление через compacted topic + tombstone

источник

20:42пожаловаться #12

SS

Sergey Sheremeta in Data Engineers

Антон, на вас уповаю! расскажите как по-уму делать

источник

20:45пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Вообще «Кафка как база данных» это вполне рабочий паттерн, для определённых применений он набирает популярность

источник

20:45пожаловаться #14

N

Nikolay in Data Engineers

Anton Zadorozhniy

Вообще «Кафка как база данных» это вполне рабочий паттерн, для определённых применений он набирает популярность

чем это лучше базы?

источник

20:46пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

(но узкая ниша, не всем подходит)

источник

20:47пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Nikolay

чем это лучше базы?

Смотря какой, но если сравнивать например с обычной SQL MPP - лучше масштабируется под OLTP нагрузку, использует готовую инфру, отдельное масштабирование компьюта даёт гибкость

источник

20:48пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Sergey Sheremeta

Антон, на вас уповаю! расскажите как по-уму делать

Извините, занят сейчас

источник

20:49пожаловаться #18

ИК

Иван Калининский... in Data Engineers

тут два момента:
- local checkpointing
- stable storage

локал чейкпонтинг никакого не даст стейбл стораджа
хочешь стейбла используй обычные чекпойнты и персисить их хоть на s3

другое дело что сам механизм чекпойнтов очень нежный

рекавериться можно хоть после кила кластера и заново его создания

источник

21:05пожаловаться #19

ИК

Иван Калининский... in Data Engineers

@pomadchin, раз уж пошло обсуждение, то в описании локальных чекпоинтов указывается executor storage. Что означает этот термин?

Механизм чекпоинтов нежный, но рекавериться можно после кила и рестора кластера. Как это сочетается одно с другим, или я не уловил сарказма?

источник

21:09пожаловаться #20