Size: a a a

2020 October 29

AZ

Anton Zadorozhniy in Data Engineers
Алексей Артамонов
@dartov я извеняюсь конечно, но что-то подзапутался jupyterhub-yarnspawner я ставлю на всех нодах? proxy user я так же настраиваю на всех нодах. а саму настройку(jupyterhub_config.py) произвожу на одной неймноде?
потом надо готовлю Packaging a Conda Environment with Conda-Pack и кладу его уже в hdfs
вам нужно чтобы на всех YARN воркерах (там где работает NodeManager) были окружения питона где есть три пакета (как минимум): jupyterhub-yarnspawner, jupyterhub, notebook; сам JupyterHub вы запускаете где хотите, но там должен быть клиент и конфигурация хадупа доступна
источник

AZ

Anton Zadorozhniy in Data Engineers
если вы запакованные окружения используете - пакуете все модули (включая эти три обязательных) в архив, кладете его на HDFS и показываете YarnSpawner где они лежат
источник

RF

Ruslan Fialkovsky in Data Engineers
в спарк3 выпилили start-shuffle-service.shstart-shuffle-service.sh
источник

RF

Ruslan Fialkovsky in Data Engineers
как теперь запускать ?🙄
источник

M

Mi in Data Engineers
Коллеги, кто-нибудь может знает, есть ли в AWS какой-нибудь аналог zookeeper для синхронизации независимых процессов?
источник

ME

Max Efremov in Data Engineers
можно в динамо дб писать лок ключи)
источник

UD

Uncel Duk in Data Engineers
Ruslan Fialkovsky
как теперь запускать ?🙄
spark.shuffle.service.enabled true
источник

AZ

Anton Zadorozhniy in Data Engineers
Mi
Коллеги, кто-нибудь может знает, есть ли в AWS какой-нибудь аналог zookeeper для синхронизации независимых процессов?
вот для вдохновления https://github.com/amazon-archives/dynamodb-lock-client
источник

UD

Uncel Duk in Data Engineers
у воркеров
источник

AZ

Anton Zadorozhniy in Data Engineers
(но по моему опыту проще и удобнее поднять и держать консул или этсиди, там все-таки честный консенсус, и другие фичи удобные)
источник

RF

Ruslan Fialkovsky in Data Engineers
Uncel Duk
у воркеров
мне нужно отдельно только shuffle сервис запустить 😔
источник

UD

Uncel Duk in Data Engineers
Ruslan Fialkovsky
мне нужно отдельно только shuffle сервис запустить 😔
если мезос start-mesos-shuffle-service.sh
источник

UD

Uncel Duk in Data Engineers
выкинули потому что художники так видят https://github.com/apache/spark/pull/23975
источник

RF

Ruslan Fialkovsky in Data Engineers
org.apache.spark.deploy.ExternalShuffleService
start org.apache.spark.deploy.mesos.MesosExternalShuffleService
разные классы вроде
источник

AZ

Anton Zadorozhniy in Data Engineers
Ruslan Fialkovsky
мне нужно отдельно только shuffle сервис запустить 😔
в текущем спарке нет отдельностоящего external shuffle service
источник

RF

Ruslan Fialkovsky in Data Engineers
Anton Zadorozhniy
в текущем спарке нет отдельностоящего external shuffle service
откуда такая информация?
источник

RF

Ruslan Fialkovsky in Data Engineers
скопировал start-shuffle-service.sh из spark2
Вроде запустилось...
 1 Spark Command: /usr/lib/jvm/java-8-openjdk-amd64/bin/java -cp /usr/lib/spark/3.0.1/conf/:/usr/lib/spark/3.0.1/jars/* -Xmx1g org.apache.spark.deploy.ExternalShuffleService
источник

RF

Ruslan Fialkovsky in Data Engineers
вроде только скрипты убрали
источник

AZ

Anton Zadorozhniy in Data Engineers
Ruslan Fialkovsky
откуда такая информация?
Я думал вы про ess для кубера спрашиваете, тот класс все еще есть
источник

M

Mi in Data Engineers
Anton Zadorozhniy
(но по моему опыту проще и удобнее поднять и держать консул или этсиди, там все-таки честный консенсус, и другие фичи удобные)
тут просто использование в одном редком кейсе, хочется обойтись чем-то готовым
источник