Size: a a a

2019 December 06

DZ

Dmitry Zuev in Data Engineers
но trainDF типа Unit
источник

DZ

Dmitry Zuev in Data Engineers
это не df
источник

d

ddre_z in Data Engineers
я просто хотел для начала посмотреть что сдоинилось
источник

d

ddre_z in Data Engineers
сджоинилось *
источник

d

ddre_z in Data Engineers
потом, конечно, убрать
источник

d

ddre_z in Data Engineers
суть, мне кажется, не в этом
источник

d

ddre_z in Data Engineers
а в том что out of memory
источник

d

ddre_z in Data Engineers
про партиционирование я читал что оно наоборот, позволит избежать шаффла
источник

d

ddre_z in Data Engineers
разве нет?
источник

DZ

Dmitry Zuev in Data Engineers
spark.read
       .csv(spark.sparkContext.textFile(sourcePath, partitions).toDS())
источник

DZ

Dmitry Zuev in Data Engineers
что то такое попробуй
источник

DZ

Dmitry Zuev in Data Engineers
я про эту часть
источник

DZ

Dmitry Zuev in Data Engineers
ddre_z
про партиционирование я читал что оно наоборот, позволит избежать шаффла
репартишн вызывает шафл
источник

DZ

Dmitry Zuev in Data Engineers
источник

d

ddre_z in Data Engineers
Dmitry Zuev
spark.read
       .csv(spark.sparkContext.textFile(sourcePath, partitions).toDS())
а колонки задать при помощи схемы, получается?
источник

DZ

Dmitry Zuev in Data Engineers
да
источник

d

ddre_z in Data Engineers
и два остальных сджоинить бродкастом?
источник

DZ

Dmitry Zuev in Data Engineers
зачем бродкаст то?
источник

DZ

Dmitry Zuev in Data Engineers
источник

d

ddre_z in Data Engineers
ладно, я просто не в курсе
источник