Телеграмм чат группы hadoopusers страница 2754

2020 September 15

AT

Al T in Data Engineers

Max Efremov

если совсем плохо, лучше к чародеям и гадалкам)

Сейчас модно говорить к subject matter expert

источник

12:08пожаловаться #1

Ж

Жмака in Data Engineers

Anton Zadorozhniy

кстати если кому надо строить PMML pipeline то теперь по крайней мере для скоринга есть PMML4S с лицензией Apache, если вы пишете коммерческий софт с закрытым кодом - то можно не платить Виллу)

PMML file создал. Вроде по данным в нем pipeline смог заменить missing values на те, что прописаны в аргументе (заменяю на самое частое встречающееся значение). Мои версии:

источник

12:14пожаловаться #2

Ж

Жмака in Data Engineers

python: 3.6.8
sklearn: 0.21.3
sklearn2pmml: 0.49.0
joblib: 0.14.1
sklearn_pandas: 1.8.0
pandas: 1.1.1
numpy: 1.19.1
xgboost 0.90

источник

12:14пожаловаться #3

SS

Sergey Sheremeta in Data Engineers

коллеги, привет!
подскажите как вы делаете юнит-тесты для трансформаций SparkSQL?

источник

14:08пожаловаться #4

DZ

Dmitry Zuev in Data Engineers

Sergey Sheremeta

коллеги, привет!
подскажите как вы делаете юнит-тесты для трансформаций SparkSQL?

Как любые юнит тесты

источник

14:09пожаловаться #5

DZ

Dmitry Zuev in Data Engineers

Можно holdenkarau testkit взять

источник

14:09пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

Sergey Sheremeta

коллеги, привет!
подскажите как вы делаете юнит-тесты для трансформаций SparkSQL?

А в чем конкретно сложность?

источник

14:12пожаловаться #7

SS

Sergey Sheremeta in Data Engineers

Dmitry Zuev

А в чем конкретно сложность?

у меня есть функция transform, которая парсит схему данных в исходном DF с json-ом внутри. как мне правильно покрыть эту функцию тестами?

источник

14:18пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

подсунуть пустой конф, неправильный конф, неполный конф, конф с нуллами.
подсунуть null df, df с неправильной схемой, df с правильной схемой.

источник

14:23пожаловаться #9

SS

Sergey Sheremeta in Data Engineers

Nikita Blagodarnyy

подсунуть пустой конф, неправильный конф, неполный конф, конф с нуллами.
подсунуть null df, df с неправильной схемой, df с правильной схемой.

подсунуть пустой конф, неправильный конф, неполный конф, конф с нуллами. - это юнит-тесты функции getConfig

источник

14:25пожаловаться #10

SS

Sergey Sheremeta in Data Engineers

у меня сейчас портянка SparkSQL кода, трансформирующего с помощью встроенных функций SparkSQL исходный датафрейм в нужный

источник

14:26пожаловаться #11

SS

Sergey Sheremeta in Data Engineers

мне либо проверять все возможные комбинации в исходном датафрейме (и жисоне внутри него),
либо делать цепочку трансформаций через Spark DSL:
withColumn("newCol1", my_transform_func1(col("oldCol1"))).
withColumn("newCol2", my_transform_func2(col("oldCol2"))).

и покрывать тестами все эти my_transform_funcN ?

источник

14:29пожаловаться #12

DZ

Dmitry Zuev in Data Engineers

Nikita Blagodarnyy

подсунуть пустой конф, неправильный конф, неполный конф, конф с нуллами.
подсунуть null df, df с неправильной схемой, df с правильной схемой.

Ну хз, имхо разрабы должны тестировать только позитивные кейсы

источник

14:30пожаловаться #13

DZ

Dmitry Zuev in Data Engineers

Sergey Sheremeta

у меня есть функция transform, которая парсит схему данных в исходном DF с json-ом внутри. как мне правильно покрыть эту функцию тестами?

Я бы просто для начала использовал датасет

источник

14:31пожаловаться #14

DZ

Dmitry Zuev in Data Engineers

На вход дал что-то тривиальное, на выходе ждал дф нужной длины с нужными значениями

источник

14:33пожаловаться #15

R

Rodion in Data Engineers

Всем привет, подскажите пожалуйста, какие бест пректизы с использованием спарка и эйрфлоу. Нужно ручками собирать джарник и подсовывать или есть какие-то более изящные решения?

источник

15:46пожаловаться #16

SS

Sergey Sheremeta in Data Engineers

Rodion

Всем привет, подскажите пожалуйста, какие бест пректизы с использованием спарка и эйрфлоу. Нужно ручками собирать джарник и подсовывать или есть какие-то более изящные решения?

оО... тоже интересует правильный ответ на этот вопрос!

источник

15:54пожаловаться #17

S

Stanislav in Data Engineers

а он есть?

источник

15:57пожаловаться #18

S

Stanislav in Data Engineers

прямо 42 запахло :)

источник

15:57пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

(мы сейчас дойдем и до иллюзорности бытия! докажи с помощтю Спарка, что наш мир = матрица)

источник

16:01пожаловаться #20