Телеграмм чат группы hadoopusers страница 4256

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 27

ИК

Иван Калининский... in Data Engineers

Подскажите, как в scala/java заставить работать YarnClient в режиме cluster с kerberos на кластере.

Код:
val appId = ApplicationId.fromString(spark.sparkContext.applicationId)
val yarnClient = YarnClient.createYarnClient
val conf = SparkHadoopUtil.get.newConfiguration(spark.sparkContext.getConf)
yarnClient.init(conf)
yarnClient.start()
val appReport = yarnClient.getApplicationReport(appId)

Результат:

Exception encountered while connecting to the server : org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOKEN, KERBEROS]

Керберос через kinit:
kinit -kt ${user_name}.keytab ${user_name}@$domain
spark-submit --master yarn --deploy-mode cluster ….

Смотрю в сторону использования UserGroupInformation, но пока не понимаю, что именно брать и совсем не понимаю, куда взятое пристроить(
Ну, или делать не kinit, а --keytab ${user_name}.keytab --principal ${user_name}@$domain ?

источник

20:52пожаловаться #1

B

BadRat in Data Engineers

How to renew Kerberos ticket on spark yarn client mode? - Stack Overflow
https://stackoverflow.com/questions/43087471/how-to-renew-kerberos-ticket-on-spark-yarn-client-mode

How to renew Kerberos ticket on spark yarn client mode?

I was using Spark 1.6.0 to access data on Kerberos enabled HDFS by API DataFrame.read.parquet($path).

My application is deployed as spark on yarn with client mode.
By default, Kerberos ticket expi...

источник

21:37пожаловаться #2

B

BadRat in Data Engineers

Тут кажется все варианты пересмотрены. А проблема в версии хадупа.

источник

21:38пожаловаться #3

ИК

Иван Калининский... in Data Engineers

Спасибо, но в deploy-mode client всё работает как надо. В cluster не работает сразу же. Это вполне понятно, я просто не знаю, как указать ярн клиенту правильную аутентификацию

источник

22:31пожаловаться #4

ИК

Иван Калининский... in Data Engineers

Более другого хадупа нет))

источник

22:32пожаловаться #5

ЕГ

Евгений Глотов... in Data Engineers

Как пропатчить ходуб под freeHDP😆

источник

22:34пожаловаться #6

2021 September 28

РД

Роман Друзык... in Data Engineers

У меня в скрипте запуска на керберизованном серваке все так же, сначала kinit, чтоб точно тикет был, а потом keytabfile.keytab и принципала указываешь.
Я думаю не в этом проблема, но все же, проверь что ты верно путь до кейтаба указываешь.

источник

08:50пожаловаться #7

ПБ

Повелитель Бури... in Data Engineers

Шутку оценил)

источник

09:50пожаловаться #8

À

Àndrew in Data Engineers

Всем привет. Подскажите пожалуйста: на спарке есть .read("jdbc") . Коннект к базе будет делать одна конкретная нода или могут сразу несколько?

источник

10:47пожаловаться #9

EK

Evgeny Kincharov in Data Engineers

по дефолту одна, чтобы было несколько надо извернуться: https://karanasou.medium.com/pyspark-parallel-read-from-database-726f4aa910b

Pyspark — Parallel read from database

How to leverage spark to read in parallel from a database

источник

10:51пожаловаться #10

À

Àndrew in Data Engineers

Если одна, то это будет нода на которой поднят драйвер или не обязательно?

источник

10:56пожаловаться #11

B

BadRat in Data Engineers

Это будет случайная нода. Драйвер нужен на всех

источник

11:36пожаловаться #12

ИК

Иван Калининский... in Data Engineers

Это будет нода, на которой создан один из экзекуторов. Экзекутор установит соединение и будет выполнять запрос. В статье указан самый простой метод распараллеливания. Можно использовать другой метод
.jdbc(url: String, table: String, predicates: Array[String], connectionProperties: Properties)
Он позволит сделать намного больше, потому что можно передать созданные предикаты (фильтры) в аргумент predicates. Сколько фильтров передано, столько будет запросов выполнено. И они будут отдельными, в разных сессиях, так что если таблица в базе данных изменилась, то необходимо обеспечить, чтобы они читали один и тот же снимок данных.

источник

11:56пожаловаться #13

À

Àndrew in Data Engineers

Понял. Спасибо)

источник

11:57пожаловаться #14

ИК

Иван Калининский... in Data Engineers

Приложение работает, обращения к hdfs производятся, так что в целом всё хорошо. И приложение не знает пути к кейтабу, сейчас всё через kinit и этого достаточно для spark-submit, контекст создаётся правильный. Но ярн клиент о нём не знает

источник

12:02пожаловаться #15

DT

Danz The Deadly in Data Engineers

Кто-то может подсказать хорошую библиотеку для рисования графов на питоне?

источник

12:41пожаловаться #16

ДШ

Дмитрий Шаталов... in Data Engineers

https://plotly.com/python/network-graphs/

Network Graphs

How to make Network Graphs in Python with Plotly. One examples of a network graph with NetworkX

источник

12:44пожаловаться #17

DT

Danz The Deadly in Data Engineers

это плотли

источник

12:45пожаловаться #18

DT

Danz The Deadly in Data Engineers

есть другая?

источник

12:45пожаловаться #19

TG

Tagir Gumerov in Data Engineers

Можно graphiz юзать, смотря какой юзкейс

источник

12:45пожаловаться #20