Телеграмм чат группы hadoopusers страница 1731

Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер

источник

11:44пожаловаться #11

RI

Rustam Iksanov in Data Engineers

Vitaly Petrov

Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер

мб коммиты после каждой вставке?

источник

11:45пожаловаться #12

N

Nikita Blagodarnyy in Data Engineers

Vitaly Petrov

Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер

Сделать 10 датафреймов вместо 1 и писать параллельно в постгрес в 10 потоков.

источник

11:46пожаловаться #13

A

Alex in Data Engineers

Vitaly Petrov

Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер

Так в хайв это же записать файлы на диск и создать метаданные в хайв

источник

11:47пожаловаться #14

A

Alex in Data Engineers

Что-то я сомневаюсь что даже через параллельную запись добьётесь такой же скорости

источник

11:47пожаловаться #15

A

Alex in Data Engineers

Nikita Blagodarnyy

Сделать 10 датафреймов вместо 1 и писать параллельно в постгрес в 10 потоков.