Телеграмм чат группы scala

Size: a a a

Scala User Group

2041 membersпожаловаться на группу

2020 September 06

Переслано от KrivdaTheTriewe

import zio._
import zio.blocking.Blocking
def execute(path:String) = blocking.effectBlocking {
spark.read.parquet(path)
}
val load = paths.map(x => execute(x))
ZIO.collectAllPar(load).map(x => x.reduce(_.union(_)))

источник

11:37пожаловаться #1

Oℕ

Oleg ℕizhnik in Scala User Group

KrivdaTheTriewe

Переслано от KrivdaTheTriewe

зачем такая фигня

источник

11:38пожаловаться #2

KrivdaTheTriewe in Scala User Group

Вместо паркета jdbc может быть

источник

11:38пожаловаться #3

Oℕ

Oleg ℕizhnik in Scala User Group

зачем нужно параллельно инициализировать читатели паркета

источник

11:38пожаловаться #4

Oℕ

Oleg ℕizhnik in Scala User Group

они же всё равно ничего не начнут читать при инициализации

источник

11:39пожаловаться #5

KrivdaTheTriewe in Scala User Group

Oleg ℕizhnik

зачем такая фигня

Spark.read по сути запускает сбор метаинформации из источника, и оно будет последовательным

источник

11:39пожаловаться #6

Oℕ

Oleg ℕizhnik in Scala User Group

KrivdaTheTriewe

Spark.read по сути запускает сбор метаинформации из источника, и оно будет последовательным

яснопонятно

источник

11:39пожаловаться #7

KrivdaTheTriewe in Scala User Group

Oleg ℕizhnik

они же всё равно ничего не начнут читать при инициализации

Начнут читать да, а метаинформацию будут вытягивать сразу, чтобы построить оптимальный план

источник

11:39пожаловаться #8

Oℕ

Oleg ℕizhnik in Scala User Group

я думал, там совсем лениво

источник

11:39пожаловаться #9

KrivdaTheTriewe in Scala User Group

Oleg ℕizhnik

я думал, там совсем лениво

С rdd может быть лениво, но rdd сча не используется в велью джобах ( ну типа не стоит наверное, если тебе там прочитать , сделать что то и положить обратно в базу , а не случай как у Гриши )

источник

11:40пожаловаться #10

KrivdaTheTriewe in Scala User Group

Oleg ℕizhnik

я думал, там совсем лениво

Ну и union тож последовательный будет по сути , и там при объединении 1000 датафреймов будет медленно , так что можно тоже в параллели обьединить ,

источник

11:41пожаловаться #11

KrivdaTheTriewe in Scala User Group

Но , стоит ещё почитать всякие настройки, возможно опций каких добавили , чтобы этой ерундой не заниматься

источник

11:42пожаловаться #12

KrivdaTheTriewe in Scala User Group

Oleg ℕizhnik

я думал, там совсем лениво

Но вообще идея твоя верна, она как минимум даёт гарантиии того , что либо данные загрузятся полностью, либо будет фейл

источник

11:43пожаловаться #13

Oℕ

Oleg ℕizhnik in Scala User Group

KrivdaTheTriewe

а sc.union вот

источник

11:43пожаловаться #14

Oℕ

Oleg ℕizhnik in Scala User Group

тоже последовательный?

источник

11:43пожаловаться #15

KrivdaTheTriewe in Scala User Group

Да

источник

11:43пожаловаться #16

Oℕ

Oleg ℕizhnik in Scala User Group

понятно

источник

11:43пожаловаться #17

KrivdaTheTriewe in Scala User Group

Oleg ℕizhnik

а sc.union вот

Ну у тебя тут rdd, чисто теоретически, наверное , твой код будет сильно быстрее , чем над датафреймами, и над распараллеливанием можно не задумываться, но лучше писать на датафреймах или датасетах

источник

11:45пожаловаться #18

λoλdog in Scala User Group

Непривычно видеть Олега в Спарк дискуссиях

источник

11:55пожаловаться #19

Oℕ

Oleg ℕizhnik in Scala User Group

я не дискутирую

источник

11:58пожаловаться #20