Size: a a a

2019 December 12

AS

Anton Shelin in Data Engineers
не совсем ясно что хотите получить. почему explode не устраивает?
источник

OI

Oleg Ilinsky in Data Engineers
Anton Shelin
не совсем ясно что хотите получить. почему explode не устраивает?
потому что explode работает с вложенными массивами, а здесь вложенный словарь)
источник

OI

Oleg Ilinsky in Data Engineers
127, 144, 145, 146, 147,148 - это названия вложенных полей в структуре, внутри этих полей - ещё структура, которую я и хочу достать.
источник

AS

Anton Shelin in Data Engineers
Oleg Ilinsky
потому что explode работает с вложенными массивами, а здесь вложенный словарь)
Со славарями тоже работает
источник

OI

Oleg Ilinsky in Data Engineers
Anton Shelin
Со славарями тоже работает
ммм
input to function explode should be array or map type, not struct
источник

AS

Anton Shelin in Data Engineers
Так у аас там не дикт а структ
источник

AS

Anton Shelin in Data Engineers
df.select(df.col("data.*"))
источник

AS

Anton Shelin in Data Engineers
источник

OI

Oleg Ilinsky in Data Engineers
Спасибо) попробую конвертнуть)
источник

В

Вадим in Data Engineers
Anton Shelin
df.select(df.col("data.*"))
А че так можно было?
источник

В

Вадим in Data Engineers
источник

ЕГ

Евгений Глотов in Data Engineers
Вадим
А че так можно было?
источник
2019 December 13

EP

Easycore Programming in Data Engineers
Друзья добрый день! Кто нибудь мог бы подсказать по кейсу? Есть топик кафки, где данные лежат в формате Apache Thrift binary, нужно их конвертить и складывать в ClickHouse, так же одно из условий, запускать по YARN'ом. Прототип написан через kafka-spark-streaming + spark-jdbc + clickhouse-jdbc. Но решение через спарк выглядит как "из пушки по воробьям". Заранее спасибо!
источник

S

Stanislav in Data Engineers
Easycore Programming
Друзья добрый день! Кто нибудь мог бы подсказать по кейсу? Есть топик кафки, где данные лежат в формате Apache Thrift binary, нужно их конвертить и складывать в ClickHouse, так же одно из условий, запускать по YARN'ом. Прототип написан через kafka-spark-streaming + spark-jdbc + clickhouse-jdbc. Но решение через спарк выглядит как "из пушки по воробьям". Заранее спасибо!
почему из пушки?
6 строчек кода на спарк сс всего то, поддерживать легко
источник

DZ

Dmitry Zuev in Data Engineers
Можно взять какой-нибудь стриминг типа fs2, monix
источник

DZ

Dmitry Zuev in Data Engineers
Если Спарк слишком
источник

EP

Easycore Programming in Data Engineers
Да не, я как раз таки и хочу услышать не жирно ли спарком просто данные переливать из кафки в CH,  без какой либо логики и шафлов.
источник

DM

Daniel Matveev in Data Engineers
"из пушки" тут выглядит ярн
источник

DM

Daniel Matveev in Data Engineers
ну и если работать с тем же кликхаусом по наполнению надо будет не единожды, может иметь смысл рассмотреть конфигурируемые переливаторы аля флюм, кафка-коннект и прочие
источник

DM

Daniel Matveev in Data Engineers
написать один раз синк для кх (если его нет еще)
источник