Телеграмм чат группы hadoopusers страница 4408

кстати раз зашла речь про персист

df2 = df.persis()

df2.isEmpty() - считает один раз и не вызывает реально кеширование датафрейма

df2.count() - вот тут уже посчитает весь датафрейм и заперсистит его

я понимаю что isEmpty имеет упрощённый план до первой непустой партиции
но на persist датафрейме я бы ожидал что оно тригернёт вычисление и кеширование указанного дф чтобы потом след операцией я уже работал с кешированным

а так получается первый раз isEmpty молотит
потом второй раз молотит когда я дествительно с фреймом работаю

может кто-то объяснить логику или я хочу слишком много?

источник

16:34пожаловаться #4

ИК

Иван Калининский... in Data Engineers

с ходу ставлю на полноценный персист при вызове .isEmpty

источник

16:35пожаловаться #5

ИК

Иван Калининский... in Data Engineers

но надо глянуть))

источник

16:35пожаловаться #6

Alex in Data Engineers

вот посмотри, там как раз и нету его

источник

16:35пожаловаться #7

Alex in Data Engineers

я первый раз когда столкнулся полез смотреть планы

источник

16:35пожаловаться #8

Alex in Data Engineers

в самом спарке там где нужно заперсистить гарантированно а не lazy везде стоит .count()

источник

16:36пожаловаться #9

ИК

Иван Калининский... in Data Engineers

у меня только Option.isEmpty)) щас раскопаю

источник

16:37пожаловаться #10

Alex in Data Engineers

/**
* @note Due to complications in the internal implementation, this method will raise an
* exception if called on an RDD of Nothing or Null. This may be come up in practice
* because, for example, the type of parallelize(Seq()) is RDD[Nothing].
* (`parallelize(Seq())` should be avoided anyway in favor of parallelize(Seq[T]()).)
* @return true if and only if the RDD contains no elements at all. Note that an RDD
* may be empty even when it has at least 1 partition.
*/
def isEmpty(): Boolean = withScope {
partitions.length == 0 || take(1).length == 0
}

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala#L1432-L1443

GitHub

spark/RDD.scala at master · apache/spark

Apache Spark - A unified analytics engine for large-scale data processing - spark/RDD.scala at master · apache/spark

источник

16:46пожаловаться #11

Alex in Data Engineers

@KaiNie_R то есть если повезёт то все партиции посчитаются, если не повезет то только некоторые (до первой ненулевой, ну и после неё ещё немного, в зависимости от батча)

источник

16:46пожаловаться #12

ИК

Иван Калининский... in Data Engineers

это RDD так проверяется, в датасете чуть запутаннее

источник

16:48пожаловаться #13

Alex in Data Engineers

примерно то на то
датасет проваливается в эту функцию

источник

16:49пожаловаться #14

ИК