Привет! Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Привет! Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Привет! Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Сделать 10 датафреймов вместо 1 и писать параллельно в постгрес в 10 потоков.
Привет! Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Так в хайв это же записать файлы на диск и создать метаданные в хайв