Size: a a a

2020 September 02

EV

Eduard Vlasov in Data Engineers
есть позыв делать на streaming
источник

EV

Eduard Vlasov in Data Engineers
😀
источник

ИК

Иван Калининский... in Data Engineers
Eduard Vlasov
есть позыв делать на streaming
Стриминг = микробатч, я бы не стал связываться, если и так перекос и OOM. Но это просто мнение, возможно, как раз станет легче
источник

EV

Eduard Vlasov in Data Engineers
не, в стриминге можно стейт сессии вынести на внешнее быстрое хранилище и обработать отсортированный датаест в один проход
источник

EV

Eduard Vlasov in Data Engineers
а микро - не микро — пофиг
источник

Ж

Жмака in Data Engineers
Жмака
Привет. Пытаюсь в скале аппликации запустить spark.sql запрос и выдает ошибку table or view not found. На уровне emr коефигурация hive.metastore.client.factory.class есть. Через спарк шелл могу запустить запрос. В аппликации трейт sparksessionsetup, который запускает сессию с конфигами и этот трецт экстендит сервис класс в котором весть flow и мэйн функция создает сервис инстанс и запускает метод execute в котором флоу. Не пойму в чем проблема
Может есть у кого идеи?
источник

Ж

Жмака in Data Engineers
Иван Калининский
Так это потому что для весьма старых версий скалы threads, для более новых forkjoinpool, а если там к тому же и future в конечном итоге, то какой смысл отказываться от .par? По-моему никакого, особенно если сайдэффекты под контролем, каждый элемент преобразуется в Either.
Написал запрос и беру теже данные через aws glue catalog. Завершается за 7 минут. Только теперь проблема с дизайном аппликации.
источник

T

T in Data Engineers
Жмака
Написал запрос и беру теже данные через aws glue catalog. Завершается за 7 минут. Только теперь проблема с дизайном аппликации.
пробуй добавить в спарк сессию
.config("spark.sql.catalogImplementation", "hive")
.config("hive.metastore.connect.retries", 15)
.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory")
источник

T

T in Data Engineers
мне в свое время помогло
источник

Ж

Жмака in Data Engineers
Добавил. Ничего не изменилось: https://scastie.scala-lang.org/H9Zg3RMkQveaEWdtt3QW9g😞
источник

T

T in Data Engineers
по ссылке пусто
источник

Ж

Жмака in Data Engineers
источник

T

T in Data Engineers
а где
.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory") ?
источник

Ж

Жмака in Data Engineers
T
а где
.config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory") ?
Я его только что доьавил и еще раз запустил. Та же ошибка. В конфиге emr тоже это есть
источник

T

T in Data Engineers
ну уменя больше идей нет тогда
источник

T

T in Data Engineers
P.S .stripMargin позволит оформить запрос красиво а нелепить все в одну строчку с конкатинацией
источник

Ж

Жмака in Data Engineers
T
P.S .stripMargin позволит оформить запрос красиво а нелепить все в одну строчку с конкатинацией
Спасибо. Сделаю
источник

M

Mi in Data Engineers
Кто-нибудь может знает тулу которая может помочь перегнать presto SQL в spark SQL? Или может есть какой документ со сравнением и разницей синтаксисов
источник

A

Alex in Data Engineers
подождать presto на spark ?
источник

M

Mi in Data Engineers
не вариант
источник