Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Можно попробовать .option("numPartitions", parallelismLevel) уменьшить уровень параллелизма или если никак то можно попробовать руками через pyodbc