Size: a a a

2020 July 22

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Epikhin
git push —force
а вот пушить не надо :)
источник

EV

Eduard Vlasov in Data Engineers
Eduard Vlasov
Завели DBT для батчевых преобразований и радуемся
Но там ток spark sql
источник

SS

Sergey Sheremeta in Data Engineers
вот у меня есть 2 топика в Кафке, например: кликстрим и какой-нибудь справочник.
1) я создаю 2 spark structured streaming жобы, которые приземляют эти топики в "бронзовый слой"
2) я создаю 2 стриминг джобы, которые из "бронзы" доставляют изменения в "серебряные" таблицы. допустим даже с учетом SCD2 для справочника.
3) создаю 1 стриминг джобу, которая раз в час варит из серебрянных инкрементов новую партицию для "золотой" таблицы

я не хочу код каждой джобы держать в отдельном гите
источник

SS

Sergey Sheremeta in Data Engineers
Михаил из ДодоПицца показывал на последнем митапе DEorDIE подобный монореп, но там все на питон завязано.
источник

EV

Eduard Vlasov in Data Engineers
Sergey Sheremeta
вот у меня есть 2 топика в Кафке, например: кликстрим и какой-нибудь справочник.
1) я создаю 2 spark structured streaming жобы, которые приземляют эти топики в "бронзовый слой"
2) я создаю 2 стриминг джобы, которые из "бронзы" доставляют изменения в "серебряные" таблицы. допустим даже с учетом SCD2 для справочника.
3) создаю 1 стриминг джобу, которая раз в час варит из серебрянных инкрементов новую партицию для "золотой" таблицы

я не хочу код каждой джобы держать в отдельном гите
Извини что не в тему, А можешь немного раписать что собой физически представляют таблицы в бронзе серебре и в стриминге их апдейтить?
источник

SS

Sergey Sheremeta in Data Engineers
Eduard Vlasov
Извини что не в тему, А можешь немного раписать что собой физически представляют таблицы в бронзе серебре и в стриминге их апдейтить?
источник

EV

Eduard Vlasov in Data Engineers
Спасибо 🤗
источник

SS

Sergey Sheremeta in Data Engineers
но вы же в облаках сидите, смотрите сразу на Databricks DeltaLake, там важные оптимизации, без которых "печот"
источник

IK

Irina Kamalova in Data Engineers
а мб кто знает, есть ли либа для Avro чтобы именно в array of bytes преобразовывала pojo и обратно для java? (есть такая для скала, а apache avro почему-то только в файл так умеет, если я ничего не проглядела)
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Sergey Sheremeta
вот у меня есть 2 топика в Кафке, например: кликстрим и какой-нибудь справочник.
1) я создаю 2 spark structured streaming жобы, которые приземляют эти топики в "бронзовый слой"
2) я создаю 2 стриминг джобы, которые из "бронзы" доставляют изменения в "серебряные" таблицы. допустим даже с учетом SCD2 для справочника.
3) создаю 1 стриминг джобу, которая раз в час варит из серебрянных инкрементов новую партицию для "золотой" таблицы

я не хочу код каждой джобы держать в отдельном гите
А что мешает?
источник

SS

Sergey Sheremeta in Data Engineers
ладно, вопрос скорее не в том, как хранить скала-код в монорепе, а в применении какого-либо фреймворка, который позволит вынести настроечные данные в конфиги (схемы данных, маппинг) и по этим конфигам штамповать код для запуска джобов (плюс сразу и деплоить их)
источник

T

T in Data Engineers
Sergey Sheremeta
ладно, вопрос скорее не в том, как хранить скала-код в монорепе, а в применении какого-либо фреймворка, который позволит вынести настроечные данные в конфиги (схемы данных, маппинг) и по этим конфигам штамповать код для запуска джобов (плюс сразу и деплоить их)
мы просто в teamcity на писали шабловнов на kotlin dsl которые нам собирает стандартные джобы
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
ладно, вопрос скорее не в том, как хранить скала-код в монорепе, а в применении какого-либо фреймворка, который позволит вынести настроечные данные в конфиги (схемы данных, маппинг) и по этим конфигам штамповать код для запуска джобов (плюс сразу и деплоить их)
а какая разница монорепа или нет? просто что вы не ссылаетесь на конкретные артефакты в артифактори, а тащите их из target/?
источник

SS

Sergey Sheremeta in Data Engineers
мне вообще не нужны зависимости между джобами, мне нужен единый resources с конфигами, схемами данных, SQL/DSL для трансформаций и некий sexy_framework.jar в lib
источник

SS

Sergey Sheremeta in Data Engineers
или как сейчас делают дата-инженеры?
источник

SS

Sergey Sheremeta in Data Engineers
хочу например иметь возмжность прогонять тесты вида: переименовал в трансформации столбец - при прогоне тестов увидел, что стала невалидной использующая его джоба
источник

R

Renarde in Data Engineers
Sergey Sheremeta
мне вообще не нужны зависимости между джобами, мне нужен единый resources с конфигами, схемами данных, SQL/DSL для трансформаций и некий sexy_framework.jar в lib
Вот примерчик на jsonnet:

https://github.com/renardeinside/databricks-jobs-jsonnet

Две джобы с зависимостями друг на друга, конфигурация из одной точки
источник

R

Renarde in Data Engineers
Он под DBX написан, но концепция "конфиги в одном месте" достигается как раз за счет jsonnet
источник

АК

Анатолий Клюса... in Data Engineers
Есть ли общие рекомендации, как настроить тяжелвй запрос в клаудере в hive через MR так, чтобы он по максимуму сбрасывал все промежуточное на диск и по минимуму использовал оперативку?
Т.е. чтобы дольше подождать, но чтобы он выполнился, а не вывалился по нехватке памяти?
set hive.tez.container.size=128 не оч помогло...
источник

A

Andrey in Data Engineers
hive вроде и так все промежуточные файлы хранит в HDFS
источник