Телеграмм чат группы hadoopusers страница 2555

15:07пожаловаться #1

EV

Eduard Vlasov in Data Engineers

Eduard Vlasov

Завели DBT для батчевых преобразований и радуемся

Но там ток spark sql

15:08пожаловаться #2

SS

вот у меня есть 2 топика в Кафке, например: кликстрим и какой-нибудь справочник.
1) я создаю 2 spark structured streaming жобы, которые приземляют эти топики в "бронзовый слой"
2) я создаю 2 стриминг джобы, которые из "бронзы" доставляют изменения в "серебряные" таблицы. допустим даже с учетом SCD2 для справочника.
3) создаю 1 стриминг джобу, которая раз в час варит из серебрянных инкрементов новую партицию для "золотой" таблицы

я не хочу код каждой джобы держать в отдельном гите

15:11пожаловаться #3

SS

Михаил из ДодоПицца показывал на последнем митапе DEorDIE подобный монореп, но там все на питон завязано.

15:12пожаловаться #4

EV

Eduard Vlasov in Data Engineers

вот у меня есть 2 топика в Кафке, например: кликстрим и какой-нибудь справочник.
1) я создаю 2 spark structured streaming жобы, которые приземляют эти топики в "бронзовый слой"
2) я создаю 2 стриминг джобы, которые из "бронзы" доставляют изменения в "серебряные" таблицы. допустим даже с учетом SCD2 для справочника.
3) создаю 1 стриминг джобу, которая раз в час варит из серебрянных инкрементов новую партицию для "золотой" таблицы

я не хочу код каждой джобы держать в отдельном гите

Извини что не в тему, А можешь немного раписать что собой физически представляют таблицы в бронзе серебре и в стриминге их апдейтить?

15:13пожаловаться #5

SS

Eduard Vlasov

Извини что не в тему, А можешь немного раписать что собой физически представляют таблицы в бронзе серебре и в стриминге их апдейтить?

delta.io

15:13пожаловаться #6

EV

Eduard Vlasov in Data Engineers

Спасибо 🤗

15:14пожаловаться #7

SS

но вы же в облаках сидите, смотрите сразу на Databricks DeltaLake, там важные оптимизации, без которых "печот"

15:15пожаловаться #8

IK

Irina Kamalova in Data Engineers

а мб кто знает, есть ли либа для Avro чтобы именно в array of bytes преобразовывала pojo и обратно для java? (есть такая для скала, а apache avro почему-то только в файл так умеет, если я ничего не проглядела)

Vladislav 👻 Shishkov... in Data Engineers

15:16пожаловаться #9

VS

вот у меня есть 2 топика в Кафке, например: кликстрим и какой-нибудь справочник.
1) я создаю 2 spark structured streaming жобы, которые приземляют эти топики в "бронзовый слой"
2) я создаю 2 стриминг джобы, которые из "бронзы" доставляют изменения в "серебряные" таблицы. допустим даже с учетом SCD2 для справочника.
3) создаю 1 стриминг джобу, которая раз в час варит из серебрянных инкрементов новую партицию для "золотой" таблицы

я не хочу код каждой джобы держать в отдельном гите

А что мешает?

15:18пожаловаться #10

SS

ладно, вопрос скорее не в том, как хранить скала-код в монорепе, а в применении какого-либо фреймворка, который позволит вынести настроечные данные в конфиги (схемы данных, маппинг) и по этим конфигам штамповать код для запуска джобов (плюс сразу и деплоить их)

15:23пожаловаться #11

T

T in Data Engineers

ладно, вопрос скорее не в том, как хранить скала-код в монорепе, а в применении какого-либо фреймворка, который позволит вынести настроечные данные в конфиги (схемы данных, маппинг) и по этим конфигам штамповать код для запуска джобов (плюс сразу и деплоить их)

мы просто в teamcity на писали шабловнов на kotlin dsl которые нам собирает стандартные джобы

15:32пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

ладно, вопрос скорее не в том, как хранить скала-код в монорепе, а в применении какого-либо фреймворка, который позволит вынести настроечные данные в конфиги (схемы данных, маппинг) и по этим конфигам штамповать код для запуска джобов (плюс сразу и деплоить их)

а какая разница монорепа или нет? просто что вы не ссылаетесь на конкретные артефакты в артифактори, а тащите их из target/?

15:51пожаловаться #13

SS

мне вообще не нужны зависимости между джобами, мне нужен единый resources с конфигами, схемами данных, SQL/DSL для трансформаций и некий sexy_framework.jar в lib

15:55пожаловаться #14

SS

или как сейчас делают дата-инженеры?

15:56пожаловаться #15

SS

хочу например иметь возмжность прогонять тесты вида: переименовал в трансформации столбец - при прогоне тестов увидел, что стала невалидной использующая его джоба

15:58пожаловаться #16

R

Renarde in Data Engineers

renardeinside/databricks-jobs-jsonnet

мне вообще не нужны зависимости между джобами, мне нужен единый resources с конфигами, схемами данных, SQL/DSL для трансформаций и некий sexy_framework.jar в lib

Вот примерчик на jsonnet:

https://github.com/renardeinside/databricks-jobs-jsonnet

Две джобы с зависимостями друг на друга, конфигурация из одной точки

GitHub

Example project with Databricks jobs and configuration management via jsonnet - renardeinside/databricks-jobs-jsonnet

16:44пожаловаться #17

R

Renarde in Data Engineers

Он под DBX написан, но концепция "конфиги в одном месте" достигается как раз за счет jsonnet

Анатолий Клюса... in Data Engineers

16:45пожаловаться #18

АК

Есть ли общие рекомендации, как настроить тяжелвй запрос в клаудере в hive через MR так, чтобы он по максимуму сбрасывал все промежуточное на диск и по минимуму использовал оперативку?
Т.е. чтобы дольше подождать, но чтобы он выполнился, а не вывалился по нехватке памяти?
set hive.tez.container.size=128 не оч помогло...

16:45пожаловаться #19

A

Andrey in Data Engineers

hive вроде и так все промежуточные файлы хранит в HDFS