Телеграмм чат группы hadoopusers страница 1886

не совсем ясно что хотите получить. почему explode не устраивает?

17:50пожаловаться #1

OI

Anton Shelin

не совсем ясно что хотите получить. почему explode не устраивает?

потому что explode работает с вложенными массивами, а здесь вложенный словарь)

17:54пожаловаться #2

OI

127, 144, 145, 146, 147,148 - это названия вложенных полей в структуре, внутри этих полей - ещё структура, которую я и хочу достать.

17:54пожаловаться #3

AS

Oleg Ilinsky

потому что explode работает с вложенными массивами, а здесь вложенный словарь)

Со славарями тоже работает

18:21пожаловаться #4

OI

Anton Shelin

Со славарями тоже работает

ммм

input to function explode should be array or map type, not struct

18:46пожаловаться #5

AS

Так у аас там не дикт а структ

18:46пожаловаться #6

AS

df.select(df.col("data.*"))

18:47пожаловаться #7

AS

https://docs.databricks.com/_static/notebooks/transform-complex-data-types-scala.html

18:49пожаловаться #8

OI

Спасибо) попробую конвертнуть)

18:51пожаловаться #9

В

Вадим in Data Engineers

Anton Shelin

df.select(df.col("data.*"))

А че так можно было?

21:05пожаловаться #10

В

Вадим in Data Engineers

sticker.webp

(36.23 Кб)

21:05пожаловаться #11

ЕГ

Евгений Глотов in Data Engineers

А че так можно было?

21:07пожаловаться #12

2019 December 13

EP

Easycore Programming in Data Engineers

Друзья добрый день! Кто нибудь мог бы подсказать по кейсу? Есть топик кафки, где данные лежат в формате Apache Thrift binary, нужно их конвертить и складывать в ClickHouse, так же одно из условий, запускать по YARN'ом. Прототип написан через kafka-spark-streaming + spark-jdbc + clickhouse-jdbc. Но решение через спарк выглядит как "из пушки по воробьям". Заранее спасибо!

09:08пожаловаться #13

S

Stanislav in Data Engineers

Easycore Programming

Друзья добрый день! Кто нибудь мог бы подсказать по кейсу? Есть топик кафки, где данные лежат в формате Apache Thrift binary, нужно их конвертить и складывать в ClickHouse, так же одно из условий, запускать по YARN'ом. Прототип написан через kafka-spark-streaming + spark-jdbc + clickhouse-jdbc. Но решение через спарк выглядит как "из пушки по воробьям". Заранее спасибо!

почему из пушки?
6 строчек кода на спарк сс всего то, поддерживать легко

09:15пожаловаться #14

DZ

Dmitry Zuev in Data Engineers

Можно взять какой-нибудь стриминг типа fs2, monix

09:15пожаловаться #15

DZ

Dmitry Zuev in Data Engineers

Если Спарк слишком

09:15пожаловаться #16

EP

Easycore Programming in Data Engineers

Да не, я как раз таки и хочу услышать не жирно ли спарком просто данные переливать из кафки в CH, без какой либо логики и шафлов.

09:16пожаловаться #17

DM

Daniel Matveev in Data Engineers

"из пушки" тут выглядит ярн

09:16пожаловаться #18

DM

Daniel Matveev in Data Engineers

ну и если работать с тем же кликхаусом по наполнению надо будет не единожды, может иметь смысл рассмотреть конфигурируемые переливаторы аля флюм, кафка-коннект и прочие

09:17пожаловаться #19

DM

Daniel Matveev in Data Engineers

написать один раз синк для кх (если его нет еще)