Size: a a a

2020 September 17

GP

Grigory Pomadchin in Data Engineers
источник

DZ

Dmitry Zuev in Data Engineers
ну тоесть когда я в csv впревые обнаружил лишние поля после .as[MyClass] я был в не доумении
источник

DZ

Dmitry Zuev in Data Engineers
офк я в df не кастил
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry Zuev
ну тоесть когда я в csv впревые обнаружил лишние поля после .as[MyClass] я был в не доумении
а понял
источник

GP

Grigory Pomadchin in Data Engineers
я как-то не так читал
источник

DZ

Dmitry Zuev in Data Engineers
мне кажется это потому что тупо as ничего не делает, и если дальше тупо экшн, зачем делать проекцию
источник

DZ

Dmitry Zuev in Data Engineers
Sergey Sheremeta
спасибо!
https://gist.github.com/zuynew/dd66959f71df6584f320be2c9bba0717
мы вот так сделали и забили
источник

АЖ

Андрей Жуков... in Data Engineers
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, подскажите как можно сравнить 2 датафрейма?
источник

GP

Grigory Pomadchin in Data Engineers
Sergey Sheremeta
коллеги, подскажите как можно сравнить 2 датафрейма?
except?
источник

SS

Sergey Sheremeta in Data Engineers
есть некая функция
MySexySparkApp.transform(inDF: DataFrame): DataFrame

возвращает датафрейм с сотней-другой столбцов.

я в тесте пишу ожидаемый датафрейм и сравниваю полученный из тестируемое функции transform с помощью метода из spark-fast-tests
https://github.com/MrPowers/spark-fast-tests/blob/master/src/main/scala/com/github/mrpowers/spark/fast/tests/DatasetComparer.scala#L78
источник

GP

Grigory Pomadchin in Data Engineers
типа посмотреть что в результате будет
источник

AE

Alexey Evdokimov in Data Engineers
вычесть один из другого и посмотреть разницу?
источник

GP

Grigory Pomadchin in Data Engineers
Alexey Evdokimov
вычесть один из другого и посмотреть разницу?
+; ага
источник

SS

Sergey Sheremeta in Data Engineers
но меня напрягает писать ожидаемый датафрейм с сотней столбцов, хочу что-то вроде
assertDFInside
источник

A

Alex in Data Engineers
Sergey Sheremeta
а все-таки - почему
df.as[U].toDF()
не отсекает отсутствующие в U столбцы?
Пожалуйста, будьте с as очень аккуратным

У нас было пару раз был датафрей тяжёлый, парни делают as на класс с пару полями и ожидают что он будет дальше легкий

Шафлят и во многих местах в джойне используют

И получается что все 50+ полей следом таскают, только они невидимы

При простой правке вместо 100гб шафла, стало меньше гига
источник

A

Alex in Data Engineers
as это лишь проекция, но не отменяет что весь датафрей будет дальше гнаться
источник

SS

Sergey Sheremeta in Data Engineers
Alex
Пожалуйста, будьте с as очень аккуратным

У нас было пару раз был датафрей тяжёлый, парни делают as на класс с пару полями и ожидают что он будет дальше легкий

Шафлят и во многих местах в джойне используют

И получается что все 50+ полей следом таскают, только они невидимы

При простой правке вместо 100гб шафла, стало меньше гига
а почему они невидимы? почему они не отбрасываются при преобразовании DF - DS - DF ?
источник

DZ

Dmitry Zuev in Data Engineers
Alex
as это лишь проекция, но не отменяет что весь датафрей будет дальше гнаться
Селект тоже проекция
источник

DZ

Dmitry Zuev in Data Engineers
Яснее не стало
источник