GP
Size: a a a
GP
GP
KS
KS
GP
KS
GP
GP
GP
KS
ИК
.write.partitionBy(f1, f2, f3)
работает так: сортирует партиции RDD по f1, f2, f3
(sortWithinPartitions(….)), затем начинает писать файлы. Как только значение (f1, f2, f3
) отличается от предыдущего, создается новый файл в новой партиции. Если одна партиция создает фигово количество файлов, каждый таск работает очень долго (с json, может быть, не так долго, как с паркет, но всё же не быстро). Поэтому если есть возможность, сделай repartition по этому датасету, как советует Григорий, поставив количество numParts равным удвоенному количеству файловGP
GP
GP
ИК
KS
KS
GP
KS
KS