Size: a a a

2020 December 10

ME

Max Efremov in Data Engineers
Dave Manukian
Привет! Подскажите пожалуйста кто-нибудь делал upsert (хотя бы каким-то образом) в postgresql/mysql используя spark ss? Я понимаю возможно это ненормально так делать, но столкнулся с такой задачей. Нашел такой пример, но немножко смущает использование broadcast'a https://medium.com/@thomaspt748/how-to-upsert-data-into-relational-database-using-spark-7d2d92e05bb9
А я просто спарком с csv пишу и дальше в базу импортирую через load :)
источник

ME

Max Efremov in Data Engineers
Получается быстрее и спарк базу не кладёт кучей потоков
источник

N

Nikita Blagodarnyy in Data Engineers
Max Efremov
Получается быстрее и спарк базу не кладёт кучей потоков
это можно настроить в num_partitions
источник

SS

Sergey Sheremeta in Data Engineers
Dave Manukian
Привет! Подскажите пожалуйста кто-нибудь делал upsert (хотя бы каким-то образом) в postgresql/mysql используя spark ss? Я понимаю возможно это ненормально так делать, но столкнулся с такой задачей. Нашел такой пример, но немножко смущает использование broadcast'a https://medium.com/@thomaspt748/how-to-upsert-data-into-relational-database-using-spark-7d2d92e05bb9
Мы такое делали через вставку спарком в стейдж-таблицу и последующий вызов prepared statement с логикой upsert/scd2
источник

DM

Dave Manukian in Data Engineers
@ssheremeta а у вас был батч или стриминг? И вы делали с броадкастом? :)
источник

MP

Md Palash in Data Engineers
Try heroku
источник
2020 December 11

DZ

Dmitry Zuev in Data Engineers
Dave Manukian
@ssheremeta а у вас был батч или стриминг? И вы делали с броадкастом? :)
В чем разница? Все равно батчами вставляешь, разница в размере только, тут надо понимать на что база способна. Чудес не бывает
источник

N

Nikita Blagodarnyy in Data Engineers
Dave Manukian
@ssheremeta а у вас был батч или стриминг? И вы делали с броадкастом? :)
А в чем проблема бродкаста? Ну создайте в форичбаче коннекшон.
источник

DM

Dave Manukian in Data Engineers
Nikita Blagodarnyy
А в чем проблема бродкаста? Ну создайте в форичбаче коннекшон.
Бродкаста. Да, я тоже к этому пришел, так и сделаю, спасибо :)
источник

N

Nikita Blagodarnyy in Data Engineers
Бродкаст объекта-это плохо?
источник

DZ

Dmitry Zuev in Data Engineers
Ещё есть лейзивал
источник

DZ

Dmitry Zuev in Data Engineers
источник

PK

Pearl Kerr in Data Engineers
u mean oofftoopic?
источник

KS

K S in Data Engineers
Что посоветуете для трансляции из csv/tsv в parquet?
Попробовал pyarrow, но что-то не нравится ему csv, капризничает.
источник

KS

K S in Data Engineers
И ещё вдогонку, когда я закидываю parquet в hdfs, нужно импортировать дельты в hive table. Пока додумался только через alter table location > new-delta.parquet
источник

KS

K S in Data Engineers
Недостаток в том, что если раз в час добавлять partition, то через год их будет туева хуча и запросы будут тормозить.
источник

A

Alex in Data Engineers
Compaction делать :)
источник

KS

K S in Data Engineers
Alex
Compaction делать :)
Ну это да, просто может есть какие то другие способы.
источник

A

Alex in Data Engineers
Это известная проблема с множеством мелких файлов

А добавление мелких партишенов ещё хуже бывает
источник

KS

K S in Data Engineers
Alex
Это известная проблема с множеством мелких файлов

А добавление мелких партишенов ещё хуже бывает
У меня дельты около 2ГБ, это маленький размер?
источник