Size: a a a

2020 August 05

АК

Анатолий Клюса... in Data Engineers
Ну, есть там вроде хайвовая либа для скалы, но я точно не знаю, какую именно включать в сбт
Советовали
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF
источник

АК

Анатолий Клюса... in Data Engineers
Мне вообще-то просто нужно массивы из xpath норм обработать в скале )
источник

АК

Анатолий Клюса... in Data Engineers
там flatmap, sort, distinct, все такое )
источник

АК

Анатолий Клюса... in Data Engineers
sparkSession.udf.register("normArr", (input: Seq[String]) => input.distinct.sorted.mkString(", ") )
источник

АК

Анатолий Клюса... in Data Engineers
Всего-то это надо было)
Вроде работает... на тестовой))
источник

АК

Анатолий Клюса... in Data Engineers
Grigory Pomadchin
ну seq не самый лучший тип просто)
Может в моем случае на биг данных повлиять на скорость? Или на память?
источник

GP

Grigory Pomadchin in Data Engineers
Анатолий Клюса
Может в моем случае на биг данных повлиять на скорость? Или на память?
нет
источник

АК

Анатолий Клюса... in Data Engineers
Ну знач подходит вроде в этом случае.
Но как тогда правильно мапить хайвовые массивы в скалу?
источник

N

Nikita Blagodarnyy in Data Engineers
Почитай исходники.
источник

N

Nikita Blagodarnyy in Data Engineers
Там может быть вообще отдельный класс под этот тип.
источник

AS

Andrey Smirnov in Data Engineers
Анатолий Клюса
Ну знач подходит вроде в этом случае.
Но как тогда правильно мапить хайвовые массивы в скалу?
понять что скрывается за хайвовым массивом
источник

АК

Анатолий Клюса... in Data Engineers
Ок, спасибо всем. Пока работает, ну его, лезть в исходники))
Хотя интересно, но пока не до этого)
Понятно, что спарк или скала это дело как-то кастует (о чем и говорит та ошибка), ну, спасибо ему и на этом)
источник

А

Алексей in Data Engineers
Подскажите, у кого есть oracle big data connector, он может работать с облачным кластерами, типа databricks?
источник

А

Алексей in Data Engineers
И такой же вопрос по hana spark connector
источник

А

Алексей in Data Engineers
Не понятно, есть ли вообще сейчас возможность прозрачной интеграции с облаком, когда часть партий таблицы в облаке, а часть в самой бд
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей
Подскажите, у кого есть oracle big data connector, он может работать с облачным кластерами, типа databricks?
Лучше спросить вашего вендора, по моему опыту если вас устроит best effort support то можно заставить работать почти все решения, но датабрикс тут вам не друг..
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей
Не понятно, есть ли вообще сейчас возможность прозрачной интеграции с облаком, когда часть партий таблицы в облаке, а часть в самой бд
Это опять зависит от вашей СУБД или аналитической платформы, например в Hive это не проблема, но в общем случае практического смысла такое решение не имеет, мб для каких-то нишевых решений с очень локализованной нагрузкой (когда данные сразу с двух сайтов никогда не используются в одном запросе)
источник

AZ

Anton Zadorozhniy in Data Engineers
Выгружайте все данные в облачный сторадж и оттуда анализируйте чем вам удобно, хоть датабриксом, хоть ванильным спарком
источник
2020 August 06

C

Combot in Data Engineers
Добро пожаловать в самое дружелюбное комьюнити.
источник
2020 August 07

OI

Oleg Ilinsky in Data Engineers
Привет!
Вопрос про thrift.
Поднял на виртуалке thrift server, и локально через билайн могу к нему подрубиться и выполнить запрос - всё работает. Но когда пытаюсь, например, со своего компа подключиться, beeline сначала пишет, что всё ок, я подключился, но при попытке выполнить запрос падает с
Unexpected end of file when reading from HS2 server. The root cause might be too many concurrent connections. Please ask the administrator to check the number of active connections, and adjust hive.server2.thrift.max.worker.threads if applicable.
Error: org.apache.thrift.transport.TTransportException (state=08S01,code=0)

hive.server2.thrift.max.worker.threads установил в 150

Не заете, куда копать вообще? По сети порт 10000 открыт, когда я его закрывал - ошибка была сразу и другая.
источник