Size: a a a

2019 December 07

t

tenKe in Data Engineers
тогда из жсонов сдеать стракт и потом объединить все в один стракт
источник

t

tenKe in Data Engineers
from_json и struct
источник

d

ddre_z in Data Engineers
уже пробовал, и получил что-то вроде такого [{json}, {json}]
источник

d

ddre_z in Data Engineers
а мне надо [{json}]
источник

t

tenKe in Data Engineers
вообще погоди
источник

t

tenKe in Data Engineers
все же еще проще
источник

t

tenKe in Data Engineers
делаешь array(твои колонки)
источник

t

tenKe in Data Engineers
потом explode
источник

d

ddre_z in Data Engineers
array это sql.functions?
источник

t

tenKe in Data Engineers
да
источник

d

ddre_z in Data Engineers
это надо пихать в withColumnRenamed?
источник

t

tenKe in Data Engineers
нет
источник

t

tenKe in Data Engineers
withColumn(“blabla”, array(‘a, ‘b’, ‘c)
источник

t

tenKe in Data Engineers
и потом explode blabla
источник

d

ddre_z in Data Engineers
хм, попробую
источник

d

ddre_z in Data Engineers
tenKe
withColumn(“blabla”, array(‘a, ‘b’, ‘c)
ого, получилось
источник

d

ddre_z in Data Engineers
спасибо большое:3
источник

t

tenKe in Data Engineers
источник

d

ddre_z in Data Engineers
https://habr.com/ru/company/mailru/blog/415191/ а кто-нибудь вообще это задачу решал? поделитель, пожалуйста, последовательностью действии что там надо сделать, если решали
источник
2019 December 08

AS

Anton Shelin in Data Engineers
давно этим не занимался но не понял в чем проблема? загружаешь данные выделяешь признаки и строишь модель. тут я так понимаю вопрос в обьеме и фича инженеринге. тут одна категориальная фича значит надо сделать one hot encoding. далее 3 столбца с разреженными данными. тут вернее всего получится в итоге sparse matrix и имена ключей будут номерколонки_номерсчетчика.  далее делаем масштабирование по мин максу или стандартизация, выбираем модель и гоняем.
источник