Телеграмм чат группы hadoopusers страница 3573

.write.partitionBy(f1, f2, f3) работает так: сортирует партиции RDD по f1, f2, f3 (sortWithinPartitions(….)), затем начинает писать файлы. Как только значение (f1, f2, f3) отличается от предыдущего, создается новый файл в новой партиции. Если одна партиция создает фигово количество файлов, каждый таск работает очень долго (с json, может быть, не так долго, как с паркет, но всё же не быстро). Поэтому если есть возможность, сделай repartition по этому датасету, как советует Григорий, поставив количество numParts равным удвоенному количеству файлов

источник

16:07пожаловаться #11

Grigory Pomadchin in Data Engineers

да, почитай что делает партишнБай

источник

16:08пожаловаться #12

Grigory Pomadchin in Data Engineers

он глупый и работает не как ты ожидаешь

источник

16:08пожаловаться #13

Grigory Pomadchin in Data Engineers

где-то был пример, если у тебя 10 партиций в которых по 7 дней недели содержится и ты партишнБай делаешь (по дням) на них, то скок как ты думаешь он файлов запишет? vs ты сделаешь репартишн по дню и каждая партиция один день содержит

источник

16:10пожаловаться #14

ИК

Иван Калининский... in Data Engineers

но тогда будет широкая трансформация и обмен данными, но может сильно помочь. У меня был кейс - от примерно шестидесяти часов без repartition до шести-восьми часов выполнения c repartition.
Особенности Glue я не знаю

источник

16:10пожаловаться #15

K S in Data Engineers

Понял, спасибо большое!

источник

16:10пожаловаться #16

K S in Data Engineers

7 файлов?

источник

16:13пожаловаться #17

Grigory Pomadchin in Data Engineers

источник