Телеграмм чат группы hadoopusers страница 2703

Привет. Пытаюсь в скале аппликации запустить spark.sql запрос и выдает ошибку table or view not found. На уровне emr коефигурация hive.metastore.client.factory.class есть. Через спарк шелл могу запустить запрос. В аппликации трейт sparksessionsetup, который запускает сессию с конфигами и этот трецт экстендит сервис класс в котором весть flow и мэйн функция создает сервис инстанс и запускает метод execute в котором флоу. Не пойму в чем проблема

Может есть у кого идеи?

источник

11:13пожаловаться #6

Жмака in Data Engineers

Иван Калининский

Так это потому что для весьма старых версий скалы threads, для более новых forkjoinpool, а если там к тому же и future в конечном итоге, то какой смысл отказываться от .par? По-моему никакого, особенно если сайдэффекты под контролем, каждый элемент преобразуется в Either.

Написал запрос и беру теже данные через aws glue catalog. Завершается за 7 минут. Только теперь проблема с дизайном аппликации.

источник

11:20пожаловаться #7

T in Data Engineers

Жмака

пробуй добавить в спарк сессию

.config("spark.sql.catalogImplementation", "hive")
.config("hive.metastore.connect.retries", 15)
.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory")

источник

11:22пожаловаться #8

T in Data Engineers

мне в свое время помогло

источник

11:22пожаловаться #9

Жмака in Data Engineers

Добавил. Ничего не изменилось: https://scastie.scala-lang.org/H9Zg3RMkQveaEWdtt3QW9g😞

Scastie

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

источник

11:23пожаловаться #10

T in Data Engineers

по ссылке пусто

источник

11:24пожаловаться #11

Жмака in Data Engineers

https://pastebin.pl/view/dfeda64b

pastebin.pl

Scala issue - Pastebin

Pastebin.pl is a website where you can store code/text online for a set period of time and share to anybody on earth

источник

11:27пожаловаться #12

T in Data Engineers

Жмака

https://pastebin.pl/view/dfeda64b

pastebin.pl

Scala issue - Pastebin

Pastebin.pl is a website where you can store code/text online for a set period of time and share to anybody on earth

а где

.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory")

источник

11:31пожаловаться #13

Жмака in Data Engineers

а где

.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory")

Я его только что доьавил и еще раз запустил. Та же ошибка. В конфиге emr тоже это есть

источник

11:32пожаловаться #14

T in Data Engineers

ну уменя больше идей нет тогда

источник

11:36пожаловаться #15

T in Data Engineers

Жмака

https://pastebin.pl/view/dfeda64b

pastebin.pl

Scala issue - Pastebin

Pastebin.pl is a website where you can store code/text online for a set period of time and share to anybody on earth

P.S .stripMargin позволит оформить запрос красиво а нелепить все в одну строчку с конкатинацией

источник

11:37пожаловаться #16

Жмака in Data Engineers

P.S .stripMargin позволит оформить запрос красиво а нелепить все в одну строчку с конкатинацией

Спасибо. Сделаю

источник

11:37пожаловаться #17

Mi in Data Engineers

Кто-нибудь может знает тулу которая может помочь перегнать presto SQL в spark SQL? Или может есть какой документ со сравнением и разницей синтаксисов

источник

18:08пожаловаться #18

Alex in Data Engineers

подождать presto на spark ?

источник

18:10пожаловаться #19

Mi in Data Engineers

не вариант

источник

18:11пожаловаться #20