Телеграмм чат группы hadoopusers страница 2608

Size: a a a

Data Engineers

1927 membersпожаловаться на группу

2020 August 05

АК

Ну, есть там вроде хайвовая либа для скалы, но я точно не знаю, какую именно включать в сбт
Советовали
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF

источник

18:16пожаловаться #1

АК

Анатолий Клюса... in Data Engineers

Мне вообще-то просто нужно массивы из xpath норм обработать в скале )

источник

18:17пожаловаться #2

АК

Анатолий Клюса... in Data Engineers

там flatmap, sort, distinct, все такое )

источник

18:18пожаловаться #3

АК

Анатолий Клюса... in Data Engineers

sparkSession.udf.register("normArr", (input: Seq[String]) => input.distinct.sorted.mkString(", ") )

источник

18:20пожаловаться #4

АК

Анатолий Клюса... in Data Engineers

Всего-то это надо было)
Вроде работает... на тестовой))

источник

18:20пожаловаться #5

АК

Анатолий Клюса... in Data Engineers

Grigory Pomadchin

ну seq не самый лучший тип просто)

Может в моем случае на биг данных повлиять на скорость? Или на память?

источник

18:21пожаловаться #6

Grigory Pomadchin in Data Engineers

Анатолий Клюса

Может в моем случае на биг данных повлиять на скорость? Или на память?

нет

источник

18:22пожаловаться #7

АК

Анатолий Клюса... in Data Engineers

Grigory Pomadchin

нет

Ну знач подходит вроде в этом случае.
Но как тогда правильно мапить хайвовые массивы в скалу?

источник

18:22пожаловаться #8

Nikita Blagodarnyy in Data Engineers

Почитай исходники.

источник

18:57пожаловаться #9

Nikita Blagodarnyy in Data Engineers

Там может быть вообще отдельный класс под этот тип.

источник

18:58пожаловаться #10

Andrey Smirnov in Data Engineers

Анатолий Клюса

Ну знач подходит вроде в этом случае.
Но как тогда правильно мапить хайвовые массивы в скалу?

понять что скрывается за хайвовым массивом

источник

19:00пожаловаться #11

АК

Анатолий Клюса... in Data Engineers

Ок, спасибо всем. Пока работает, ну его, лезть в исходники))
Хотя интересно, но пока не до этого)
Понятно, что спарк или скала это дело как-то кастует (о чем и говорит та ошибка), ну, спасибо ему и на этом)

источник

19:08пожаловаться #12

Алексей in Data Engineers

Подскажите, у кого есть oracle big data connector, он может работать с облачным кластерами, типа databricks?

источник

22:09пожаловаться #13

Алексей in Data Engineers

И такой же вопрос по hana spark connector

источник

22:11пожаловаться #14

Алексей in Data Engineers

Не понятно, есть ли вообще сейчас возможность прозрачной интеграции с облаком, когда часть партий таблицы в облаке, а часть в самой бд

источник

22:12пожаловаться #15

Anton Zadorozhniy in Data Engineers

Алексей

Подскажите, у кого есть oracle big data connector, он может работать с облачным кластерами, типа databricks?

Лучше спросить вашего вендора, по моему опыту если вас устроит best effort support то можно заставить работать почти все решения, но датабрикс тут вам не друг..

источник

23:15пожаловаться #16

Anton Zadorozhniy in Data Engineers

Алексей

Это опять зависит от вашей СУБД или аналитической платформы, например в Hive это не проблема, но в общем случае практического смысла такое решение не имеет, мб для каких-то нишевых решений с очень локализованной нагрузкой (когда данные сразу с двух сайтов никогда не используются в одном запросе)

источник

23:18пожаловаться #17

Anton Zadorozhniy in Data Engineers

Выгружайте все данные в облачный сторадж и оттуда анализируйте чем вам удобно, хоть датабриксом, хоть ванильным спарком

источник

23:23пожаловаться #18

2020 August 06

Combot in Data Engineers

Добро пожаловать в самое дружелюбное комьюнити.

источник

06:31пожаловаться #19

2020 August 07

Oleg Ilinsky in Data Engineers

Привет!
Вопрос про thrift.
Поднял на виртуалке thrift server, и локально через билайн могу к нему подрубиться и выполнить запрос - всё работает. Но когда пытаюсь, например, со своего компа подключиться, beeline сначала пишет, что всё ок, я подключился, но при попытке выполнить запрос падает с

Unexpected end of file when reading from HS2 server. The root cause might be too many concurrent connections. Please ask the administrator to check the number of active connections, and adjust hive.server2.thrift.max.worker.threads if applicable.
Error: org.apache.thrift.transport.TTransportException (state=08S01,code=0)

hive.server2.thrift.max.worker.threads установил в 150

Не заете, куда копать вообще? По сети порт 10000 открыт, когда я его закрывал - ошибка была сразу и другая.

источник

09:44пожаловаться #20