Телеграмм чат группы hadoopusers страница 1863

но trainDF типа Unit

14:29пожаловаться #1

это не df

14:29пожаловаться #2

я просто хотел для начала посмотреть что сдоинилось

14:29пожаловаться #3

сджоинилось *

14:29пожаловаться #4

потом, конечно, убрать

14:29пожаловаться #5

суть, мне кажется, не в этом

14:29пожаловаться #6

а в том что out of memory

14:29пожаловаться #7

про партиционирование я читал что оно наоборот, позволит избежать шаффла

14:30пожаловаться #8

разве нет?

14:30пожаловаться #9

spark.read
.csv(spark.sparkContext.textFile(sourcePath, partitions).toDS())

14:31пожаловаться #10

что то такое попробуй

14:31пожаловаться #11

я про эту часть

14:31пожаловаться #12

ddre_z

про партиционирование я читал что оно наоборот, позволит избежать шаффла

репартишн вызывает шафл

14:32пожаловаться #13

https://medium.com/@mrpowers/managing-spark-partitions-with-coalesce-and-repartition-4050c57ad5c4

Medium

Managing Spark Partitions with Coalesce and Repartition

Spark splits data into partitions and executes computations on the partitions in parallel. You should understand how data is partitioned…

14:34пожаловаться #14

Dmitry Zuev

spark.read
.csv(spark.sparkContext.textFile(sourcePath, partitions).toDS())

а колонки задать при помощи схемы, получается?

14:34пожаловаться #15

да

14:35пожаловаться #16

и два остальных сджоинить бродкастом?

14:35пожаловаться #17

зачем бродкаст то?

14:35пожаловаться #18

sticker.webp

(46.4 Кб)

14:35пожаловаться #19

ладно, я просто не в курсе