Size: a a a

2021 April 27

GP

Grigory Pomadchin in Data Engineers
Мож у тебя просто все экзеки равномерно медленно делают все
источник

GP

Grigory Pomadchin in Data Engineers
А может они у тебя не загружены потому что ты дал им по 100 ядер на таску и они более одной партиции за раз не процессят
источник

KS

K S in Data Engineers
Мне кажется тормоза на больших количествах из-за partitionBy
источник

KS

K S in Data Engineers
На 3 млн по любому будет тормозить
источник

GP

Grigory Pomadchin in Data Engineers
репартишн делаешь перед партишн бай ?
источник

KS

K S in Data Engineers
Нет
источник

GP

Grigory Pomadchin in Data Engineers
а как ты получаешь 50к партиций
источник

GP

Grigory Pomadchin in Data Engineers
И партишн бай сколько у тебя хочет сделать партиций
источник

GP

Grigory Pomadchin in Data Engineers
Он просто медленный и тупой
источник

KS

K S in Data Engineers
Там выше код, данные от 50 тысяч записей до млн, я так понимаю для каждой комбинации создается отдельная партиция, или я путаю что-то.
источник

ИК

Иван Калининский... in Data Engineers
.write.partitionBy(f1, f2, f3) работает так: сортирует партиции RDD по f1, f2, f3 (sortWithinPartitions(….)), затем начинает писать файлы. Как только значение (f1, f2, f3) отличается от предыдущего, создается новый файл в новой партиции. Если одна партиция создает фигово количество файлов, каждый таск работает очень долго (с json, может быть, не так долго, как с паркет, но всё же не быстро). Поэтому если есть возможность, сделай repartition по этому датасету, как советует Григорий, поставив количество numParts равным удвоенному количеству файлов
источник

GP

Grigory Pomadchin in Data Engineers
да, почитай что делает партишнБай
источник

GP

Grigory Pomadchin in Data Engineers
он глупый и работает не как ты ожидаешь
источник

GP

Grigory Pomadchin in Data Engineers
где-то был пример, если у тебя 10 партиций в которых по 7 дней недели содержится и ты партишнБай делаешь (по дням) на них, то скок как ты думаешь он файлов запишет? vs ты сделаешь репартишн по дню и каждая партиция один день содержит
источник

ИК

Иван Калининский... in Data Engineers
но тогда будет широкая трансформация и обмен данными, но может сильно помочь. У меня был кейс - от примерно шестидесяти часов без repartition до шести-восьми часов выполнения c repartition.
Особенности Glue я не знаю
источник

KS

K S in Data Engineers
Понял, спасибо большое!
источник

KS

K S in Data Engineers
7 файлов?
источник

GP

Grigory Pomadchin in Data Engineers
70
источник

KS

K S in Data Engineers
О классно, обязательно попробую.
источник

KS

K S in Data Engineers
Действительно, не очень то  оптимально. А какие-то альтернативы имеются?
источник