Size: a a a

2020 December 12

ПФ

Паша Финкельштейн... in Data Engineers
Ssh туннели умеем, kerberos умеем, чего ещё не хватает?
источник

NB

Nikita Bakanchev in Data Engineers
доступов 😄
источник

ПФ

Паша Финкельштейн... in Data Engineers
Аааа
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну попросить тех, кто имеет перетащить
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Bakanchev
Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.

Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄

Вопрос именно технический, а не с точки зрения data privacy )
При условии что у вас настроены HDFS nameservice на оба кластера - вы просто обращаетесь к данным с нужного кластера, это штатная фича
источник

NB

Nikita Bakanchev in Data Engineers
Anton Zadorozhniy
При условии что у вас настроены HDFS nameservice на оба кластера - вы просто обращаетесь к данным с нужного кластера, это штатная фича
simple -> kerberos?
источник

AZ

Anton Zadorozhniy in Data Engineers
(И оба кластера в одном релме, или есть кросс-релм траст)
источник

NB

Nikita Bakanchev in Data Engineers
а блин я не указал главное
источник

NB

Nikita Bakanchev in Data Engineers
нужно simple кластер считать в kerberos
источник

NB

Nikita Bakanchev in Data Engineers
то есть наоборот
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Bakanchev
simple -> kerberos?
Ну читающему джобу придётся дать SPN/keytab, и наверное можно попробовать подхачить запуск такого джоба на ярне без безопасности (главное чтобы у него был китаб для аутентификации на секьюрной хдфс), но не факт что все гладко получится
источник

AZ

Anton Zadorozhniy in Data Engineers
Думаю это повод включить безопасность на втором кластере, а то класть туда headless keytab само по себе будет нарушением режима
источник

NB

Nikita Bakanchev in Data Engineers
Anton Zadorozhniy
Ну читающему джобу придётся дать SPN/keytab, и наверное можно попробовать подхачить запуск такого джоба на ярне без безопасности (главное чтобы у него был китаб для аутентификации на секьюрной хдфс), но не факт что все гладко получится
да уже подкидываю 🙁 он тупо не аутеннфицирует прямым способом, и кейтаб прокинул и неймсервисы в конфе. Локально все ок , а вот на кластере беда )
источник

NB

Nikita Bakanchev in Data Engineers
Anton Zadorozhniy
Думаю это повод включить безопасность на втором кластере, а то класть туда headless keytab само по себе будет нарушением режима
согласен, но влияния не внутри команды
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Bakanchev
да уже подкидываю 🙁 он тупо не аутеннфицирует прямым способом, и кейтаб прокинул и неймсервисы в конфе. Локально все ок , а вот на кластере беда )
Какая версия спарка и как запускаете?
источник

NB

Nikita Bakanchev in Data Engineers
Anton Zadorozhniy
Какая версия спарка и как запускаете?
крайне старый спарк (2.1), запуск через spark-submit кластер мод. Тут скорее вопрос в том, что может быть кто-то уже решал такую странную задачу, не в лоб, так как то, что я нашел явно говорит о том, что you cannot use the local, unsecure YARN and access the remote, secure HDFS
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Bakanchev
крайне старый спарк (2.1), запуск через spark-submit кластер мод. Тут скорее вопрос в том, что может быть кто-то уже решал такую странную задачу, не в лоб, так как то, что я нашел явно говорит о том, что you cannot use the local, unsecure YARN and access the remote, secure HDFS
В более новых версиях (по-моему с 3) стало можно явно прокинуть китаб независимо от ярна, но в старых версиях вы зависите от ярна тут
источник

NB

Nikita Bakanchev in Data Engineers
Anton Zadorozhniy
В более новых версиях (по-моему с 3) стало можно явно прокинуть китаб независимо от ярна, но в старых версиях вы зависите от ярна тут
Не знал про 3, спасибо!
источник
2020 December 13

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
А в чем проблема бродкаста? Ну создайте в форичбаче коннекшон.
это антипаттерн, кстати, нужны либо пулы , либо самому намутить
источник
2020 December 14

SS

Sergey Sheremeta in Data Engineers
дяденьки, здравствуйте!
подскажите, насколько это анти-паттерн: в одном SparkContext запускать несколько SparkStreamingContext?
источник