Size: a a a

2021 March 30

b

burzum in Data Engineers
Anton Zadorozhniy
Имеются в виду всякие spark dataset, frameless, такие подходы
да, спасибо, понятно.
источник

AZ

Anton Zadorozhniy in Data Engineers
Pavel Klemenkov
Кажется, что сделать декларативный язык нетипизированным гораздо сложнее, чем типизированным
SQL вполне себе типизированный язык, там речь шла о написании бизнес логики в терминах UDT и функций над ними, как spark dataset
источник

ПФ

Паша Финкельштейн... in Data Engineers
KrivdaTheTriewe
Реята, которые используют dbt , скажите как вы живете и отлаживаете эти все макросы и простыни sql кода? Неужели нет желания делать etl типизированым?
Ты же сам писал на датафреймах без типов
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это очень простой код
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
Есть и другие способы )
Поделишься?
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
Даже если так будет , кода все равно будет меньше
Есть одно но. Ограничение на число полей в классе.
источник

V

Vlad in Data Engineers
Ребят не подскажите
источник

V

Vlad in Data Engineers
Какую команду необходимо написать чтоб скопировать file.txt размером 10 Тб из ПАПКИ /data/ в /tmp/
источник

T

T in Data Engineers
Vlad
Какую команду необходимо написать чтоб скопировать file.txt размером 10 Тб из ПАПКИ /data/ в /tmp/
cp
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
Но Спарк и не всем подходит, у него понятная область применимости но за рамками это области - очень больно и очень дорого (ну или ждать пока delta engine всем дадут)
А какая у него область применимости?
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
А какая у него область применимости?
мы про батчевые пайплайны говорили (ETL), спарк это бигдата, когда пайплайны широкие но их мало, мало обновлений и удалений, да вы лучше меня знаете
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
мы про батчевые пайплайны говорили (ETL), спарк это бигдата, когда пайплайны широкие но их мало, мало обновлений и удалений, да вы лучше меня знаете
Ну мало ли, вдруг что-то новое услышу)
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
Ну мало ли, вдруг что-то новое услышу)
у меня только старое 😞
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
мы про батчевые пайплайны говорили (ETL), спарк это бигдата, когда пайплайны широкие но их мало, мало обновлений и удалений, да вы лучше меня знаете
А дельта энжин прям настолько хорош?
источник

NN

No Name in Data Engineers
Anton Zadorozhniy
у меня только старое 😞
Ну, тоже неплохо, не нужно срочно все перепиливать
источник

AZ

Anton Zadorozhniy in Data Engineers
No Name
А дельта энжин прям настолько хорош?
я сам не трогал, но говорят что сильно лучше спарка
источник

YL

Yuri Lyulchenko in Data Engineers
Кто-нибудь может помочь разобраться как во Flink из топика можно получить записи в формате GenericData (Avro), используя схему из SchemaRegistry? Что-то совсем залип.... ☹️
источник

e

er@essbase.ru in Data Engineers
Anton Zadorozhniy
я сам не трогал, но говорят что сильно лучше спарка
Какие у него киллер фичи ?
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
Какие у него киллер фичи ?
не тормозит (на старте, в процессинге и нормальная утилизация), кэширование
источник

AZ

Anton Zadorozhniy in Data Engineers
то есть это нормальная МРР СУБД, но которая понимает Spark API
источник