Телеграмм чат группы hadoopusers страница 3037

* грязный чан наполнился, чистый - нет, оффсеты откатились

20:05пожаловаться #1

призываю гуру из Databricks!

20:07пожаловаться #2

er@essbase.ru in Data Engineers

Sergey Sheremeta

через foreachBatch? нет гарантий атомарности... батрак черпанул один раз. влил в грязный чан и сдох от работы. чистый чан не дозаполнился, а оффсеты уже сдвинулись

Напилить партиций что бы гарантировать в размер памяти ? Читать чанками по 100к записей ?

20:09пожаловаться #3

> через foreachBatch не хочу - там нет атомарности двух df.write (или есть?)
нет атомарности, если посередине батча упадет, df2.write может не случиться

20:09пожаловаться #4

но есть операция внутри foreachBatch идемпотентная, то все норм

20:10пожаловаться #5

это вы к Delta-формату подводите? ))

20:10пожаловаться #6

согласен. это бы решило проблему!
но на OSS версии не взлетает ((

20:11пожаловаться #7

или наплевать и допускать наличие дубликатов в бронзовом слое? их все равно можно определить по partition/offset из Кафки

20:12пожаловаться #8

Stanislav in Data Engineers

Во всей истории, непонятно, почему эти процессы должны быть объединены.
Результат - разный, вычисления разные, взаимное влияние - нет и не должно быть, экономия ресурсов - нет

20:13пожаловаться #9

Stanislav in Data Engineers

Количество кода?

20:14пожаловаться #10

эмм, ну бронза она как бы по дизайну без трансформаций.
в идеальном мире она заполняется так:

spark.readStream.format("kafka").load().writeStream.format("delta or your cool file format").save("/your/path")

20:14пожаловаться #11

Max Efremov in Data Engineers

Пс, а бронза и прочие металлы это что за модель?

20:14пожаловаться #12

Delta Lake - Reliable Data Lakes at Scale

Max Efremov

Пс, а бронза и прочие металлы это что за модель?

https://delta.io/

Delta Lake

Delta Lake is an open-source storage layer that brings ACID transactions to Apache Spark™ and big data workloads.

20:14пожаловаться #13

Max Efremov in Data Engineers

Спасибо)

20:15пожаловаться #14

Алексей in Data Engineers

Потом плохо от числа файлов не станет?

20:15пожаловаться #15

Stanislav

а может действительно, пусть два разных черпаря работают. по разным сторонам реки

20:15пожаловаться #16

Stanislav in Data Engineers

Алексей

Потом плохо от числа файлов не станет?

Станет конеш
Ссд вникнуть и зажить

20:16пожаловаться #17

Алексей

Потом плохо от числа файлов не станет?

а мы их ночью скомпактим, сразу после ночного прогона заполнения batch layer (по lambda-архитектуре)

20:16пожаловаться #18

Алексей

Потом плохо от числа файлов не станет?

внутри Databricks - OPTIMIZE, вне - .read.repartition(X).mode("overwrite")

20:16пожаловаться #19

Алексей in Data Engineers

Renarde

внутри Databricks - OPTIMIZE, вне - .read.repartition(X).mode("overwrite")

Понятно, думал, совсем нельзя трогать бронзовый слой