Телеграмм чат группы hadoopusers страница 2766

есть некая функция
MySexySparkApp.transform(inDF: DataFrame): DataFrame

возвращает датафрейм с сотней-другой столбцов.

я в тесте пишу ожидаемый датафрейм и сравниваю полученный из тестируемое функции transform с помощью метода из spark-fast-tests
https://github.com/MrPowers/spark-fast-tests/blob/master/src/main/scala/com/github/mrpowers/spark/fast/tests/DatasetComparer.scala#L78

GitHub

MrPowers/spark-fast-tests

Apache Spark testing helpers (dependency free & works with Scalatest, uTest, and MUnit) - MrPowers/spark-fast-tests

источник

18:54пожаловаться #11

Grigory Pomadchin in Data Engineers

Grigory Pomadchin

except?

типа посмотреть что в результате будет

источник

18:55пожаловаться #12

Alexey Evdokimov in Data Engineers

вычесть один из другого и посмотреть разницу?

источник

18:55пожаловаться #13

Grigory Pomadchin in Data Engineers

Alexey Evdokimov

вычесть один из другого и посмотреть разницу?

+; ага

источник

18:55пожаловаться #14

Sergey Sheremeta in Data Engineers

но меня напрягает писать ожидаемый датафрейм с сотней столбцов, хочу что-то вроде
assertDFInside

источник

18:57пожаловаться #15

Alex in Data Engineers

Sergey Sheremeta

а все-таки - почему
df.as[U].toDF()
не отсекает отсутствующие в U столбцы?

Пожалуйста, будьте с as очень аккуратным

У нас было пару раз был датафрей тяжёлый, парни делают as на класс с пару полями и ожидают что он будет дальше легкий

Шафлят и во многих местах в джойне используют

И получается что все 50+ полей следом таскают, только они невидимы

При простой правке вместо 100гб шафла, стало меньше гига

источник

19:06пожаловаться #16

Alex in Data Engineers

as это лишь проекция, но не отменяет что весь датафрей будет дальше гнаться

источник

19:07пожаловаться #17

Sergey Sheremeta in Data Engineers

Alex

а почему они невидимы? почему они не отбрасываются при преобразовании DF - DS - DF ?

источник

19:07пожаловаться #18

Dmitry Zuev in Data Engineers