Size: a a a

2019 December 05

N

Nikita Blagodarnyy in Data Engineers
Это под кубером всё, правильно понимаю?
источник

A

Alex in Data Engineers
нет, бареметал хадуп =)
источник

A

Alex in Data Engineers
докеры в ярне на хадупе
источник

A

Alex in Data Engineers
кубер только потиху проникает в контору, некоторые вещи уже там, но в хадупе ресурсов побольше и к данным поближе
поэтому нотебуки на него и вынесли, чем просить админов разворачивать для нас ещё один кубик
источник

A

Alex in Data Engineers
в кластере хадупа керберос
спарк нормально подхватил все токены даже находясь внутри докера

только для верности примаунтил /etc/krb5.conf в контейнер, иначе конечно же не понимал что за домен и тд
источник

A

Alex in Data Engineers
export MOUNTS=/etc/hadoop:/etc/hadoop:ro,/usr/hdp:/usr/hdp:ro,/etc/passwd:/etc/passwd:ro
export IMAGE_ID=registr-host/image
export KK="-Djava.security.krb5.conf=./krb5.conf"

spark-submit --master yarn --deploy-mode cluster \
   --conf spark.sql.catalogImplementation=in-memory \
   --conf spark.security.credentials.hive.enabled=false \
   --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/opt/app-root/bin/python3 \
   --conf spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_TYPE=docker \
   --conf spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=$IMAGE_ID \
   --conf spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_DOCKER_MOUNTS=$MOUNTS \
   --conf spark.executorEnv.YARN_CONTAINER_RUNTIME_TYPE=docker \
   --conf spark.executorEnv.YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=$IMAGE_ID \
   --conf spark.executorEnv.YARN_CONTAINER_RUNTIME_DOCKER_MOUNTS=$MOUNTS \
   --conf spark.yarn.appMasterEnv.JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.222.b10-0.el7_6.x86_64/jre \
   --conf spark.executorEnv.JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.222.b10-0.el7_6.x86_64/jre \
   --conf spark.driver.extraJavaOptions=$KK \
   --conf spark.executor.extraJavaOptions=$KK \
   --files krb5.conf,topology_script.py \
   --conf spark.hadoop.net.topology.script.file.name=./topology_script.py \
   main.py
источник

A

Alex in Data Engineers
topology_script.py отдельно, так как он плохо себя повёл в дефолтном хадупе

внутри контейнера системным стоит python3
а в хадупе он до сих пор от питона 2го

крешился
источник

A

Alex in Data Engineers
в питоне была проверка чтения-запизи хдфс
источник

N

Nikita Blagodarnyy in Data Engineers
Вроде можно же рядом третий поставить и его подсунуть.
источник

A

Alex in Data Engineers
ну…. имейдж с третим и ковыряться времени не было, так как ресерч
проще было поправить скрипт и пока админы думают его с собой таскать

сейчас насколько помню админы пофиксили его на хостах и это уже не надо, но других предупреждаю что может упасть
источник

A

Alex in Data Engineers
ближе к НГ могу больше сказать по тому как себя pyspark в таком окружении живёт, как раз запустим его для пользователей
источник

AZ

Anton Zadorozhniy in Data Engineers
а скажите опытные металлисты, у вас Dremio есть у кого-то в хозяйстве?
источник

A

Alex in Data Engineers
spark.executorEnv.JAVA_HOME было из-за бага в ярне

насколько понимаю утекала из-за
https://issues.apache.org/jira/browse/YARN-9391

поэтому и приходилось в контейнере переопределять, иначе ходила не туда
решением служило или параметр докидывать
или монтировать /usr/lib/jvm в контейнер и тоже всё ок, даже jvm не приходилось с собой таскать, всё с хоста забиралось

(да, хадуп либ тоже не было в контейнере никаких, всё подхватывалось маунтом из /usr/hdp и конфиги из /etc/hadoop)
источник

A

Alex in Data Engineers
Anton Zadorozhniy
а скажите опытные металлисты, у вас Dremio есть у кого-то в хозяйстве?
исследовался вопрос, но она не умела в тот момент спилить данные на диск при джойне
сейчас вроде как уже починили

поэтому оставили импалу

вообще рассматриваем в фоне потыкать повторно и их и престо
источник

AZ

Anton Zadorozhniy in Data Engineers
они конечно не конкурент престе, скорее среднее между простеньким дата каталогом и аллуксио
источник

AZ

Anton Zadorozhniy in Data Engineers
спилить умеет, но чет медленно, не выжимает нормальных цифр из моих золотых nvme
источник

DZ

Dmitry Zuev in Data Engineers
ну что, вышло с нью тайпами?
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry Zuev
ну что, вышло с нью тайпами?
можно кодеки для них выводить (полуавтоматически наверн только)
источник

DZ

Dmitry Zuev in Data Engineers
я думаю да
источник

DZ

Dmitry Zuev in Data Engineers
хотел узнать сделал человек или нет
источник