Телеграмм чат группы hadoopusers страница 2684

aggTableParquetList
.grouped(128)
.toList
.map(files => sparkSession.read.parquet(files: _*))
.reduce(_ union _)
.filter(filterClause)
.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression"))
.select(colNamesAgg.map(name => col(name)): _*)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

источник

13:23пожаловаться #7

ИК

Иван Калининский... in Data Engineers

Жмака

aggTableParquetList
.grouped(128)
.toList
.map(files => sparkSession.read.parquet(files: _*))
.reduce(_ union _)
.filter(filterClause)
.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression"))
.select(colNamesAgg.map(name => col(name)): _*)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

.map(files => sparkSession.read.parquet(files: _*))
.map(_.select(colNamesAgg.map(name => col(name)): _*))
.reduce(_ union _)

источник

13:24пожаловаться #8

ИК

Иван Калининский... in Data Engineers

навскидку вот так

источник

13:25пожаловаться #9

ИК

Иван Калининский... in Data Engineers

время то улучшается? или все потрачено?

источник

13:25пожаловаться #10

Ж

Жмака in Data Engineers

У меня проблемы с интернетом. Никак джар не зааплодю

источник

13:26пожаловаться #11

ИК

Иван Калининский... in Data Engineers

(( надеюсь, что будет лучше, но если нет, то advanced техники у меня нет

источник

13:28пожаловаться #12

Ж

Жмака in Data Engineers

Иван Калининский

навскидку вот так

val aggDeliveryQuality = aggTableParquetList
.grouped(128)
.toList
.map(files => sparkSession.read.parquet(files: _*))
.map(_.filter(filterClause).as[ViewabilitySourceAgg])
.reduce(_ union _)
.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression"))
.select(colNamesAgg.map(name => col(name)): _*)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

источник

13:30пожаловаться #13

ИК

Иван Калининский... in Data Engineers

Жмака

val aggDeliveryQuality = aggTableParquetList
.grouped(128)
.toList
.map(files => sparkSession.read.parquet(files: _*))
.map(_.filter(filterClause).as[ViewabilitySourceAgg])
.reduce(_ union _)
.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression"))
.select(colNamesAgg.map(name => col(name)): _*)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

нет, смысл был в том, чтобы перенести строку кода .select(colNamesAgg.map(name => col(name)): _*) в каждый датафрейм до union

источник

13:32пожаловаться #14

Ж

Жмака in Data Engineers

Тогда я groupby не смогу сделать потому что селект берет только пару колонок

источник

13:33пожаловаться #15

ПФ

Паша Финкельштейн... in Data Engineers

Жмака

val aggDeliveryQuality = aggTableParquetList
.grouped(128)
.toList
.map(files => sparkSession.read.parquet(files: _*))
.map(_.filter(filterClause).as[ViewabilitySourceAgg])
.reduce(_ union _)
.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression"))
.select(colNamesAgg.map(name => col(name)): _*)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

Так параллелизм потеряли же, нет?

источник

13:33пожаловаться #16

Ж

Жмака in Data Engineers

Лучше тогда как то схему прицепить к каждому юниону, нет?

источник

13:34пожаловаться #17

AS

Andrey Smirnov in Data Engineers

Жмака

Лучше тогда как то схему прицепить к каждому юниону, нет?

лучше сразу при чтении укажи

источник

13:36пожаловаться #18

ИК

Иван Калининский... in Data Engineers

Жмака

val aggDeliveryQuality = aggTableParquetList
.grouped(128)
.toList
.map(files => sparkSession.read.parquet(files: _*))
.map(_.filter(filterClause).as[ViewabilitySourceAgg])
.reduce(_ union _)
.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression"))
.select(colNamesAgg.map(name => col(name)): _*)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

val aggDeliveryQuality = aggTableParquetList
.grouped(128)
.toList
.par
.map(files => sparkSession.read.parquet(files: _*))
.map(_.filter(filterClause).as[ViewabilitySourceAgg])
.map(_.groupBy("request_id")
.agg(sum(sumColumn).as("viewable_impression»)))
.map(_.select(colNamesAgg.map(name => col(name)): _*)colNamesAgg.map(name => col(name)): _*))
.reduce(_ union _)
.dropDuplicates()
.as[ViewabilitySourceAgg]
.as("ViewabilitySourceAgg")

источник

13:37пожаловаться #19

Ж

Жмака in Data Engineers

Но груп бай так в каждом отдельном может привести к другому результату после юниона. Или я ошибаюсь?

источник

13:41пожаловаться #20