Size: a a a

2020 October 14

ME

Mikhail Epikhin in Data Engineers
ok
источник

ME

Mikhail Epikhin in Data Engineers
Если не секрет, вы сами кубер и s3 у себя развернули?
источник

ME

Mikhail Epikhin in Data Engineers
Или в облаке в каком-то?
источник

OI

Oleg Ilinsky in Data Engineers
Mikhail Epikhin
Или в облаке в каком-то?
У нас свой minio и OpenShift.
Ну как мы) у нас в компании другая команда этим занимается
источник

GT

Gennady Timofeev in Data Engineers
Oleg Ilinsky
подробнее про проблему я вот тут писал
Ошибка классический file not found exception

сам сабмит вот такой.
Внутри питон скрипта особо неважно, что т.к. он не выполнялся

export PYTHONPATH=/usr/local/bin/
export PYSPARK_PYTHON=python
export SPARK_HOME=/usr/local/airflow/spark
export JAVA_HOME=/usr/lib/jvm/adoptopenjdk-8-hotspot-amd64/jdk8u252-b09/
export PATH=$SPARK_HOME/bin:$JAVA_HOME/bin:$PATH
export HOST_IP=$(ifconfig | grep 'inet 10.' | awk '{print $2}')
spark-submit \
   --master k8s://master.aaa.abbb:8443 \
   --conf spark.kubernetes.container.image=my-registry/spark/3.0.0/spark-py:latest \
   --conf spark.kubernetes.authenticate.caCertFile=cert.crt \
   --conf spark.kubernetes.authenticate.serviceAccountName=spark \
   --conf spark.kubernetes.authenticate.oauthToken=$TOKEN \
   --conf spark.kubernetes.namespace=my_namespace \
   --conf spark.kubernetes.executor.limit.cores=0.2 \
   --conf spark.kubernetes.executor.request.cores=0.2 \
   --conf spark.executor.cores=1 \
   --conf spark.executor.memory=600M \
   --conf spark.executor.instances=20 \
   --conf spark.kubernetes.memoryOverheadFactor=0.9 \
   --conf spark.hadoop.fs.s3a.endpoint=https://s3.endpoint \
   --conf spark.hadoop.fs.s3a.access.key=s3-key \
   --conf spark.hadoop.fs.s3a.secret.key=s3-password \
   --conf spark.hadoop.fs.s3a.path.style.access=true \
   --conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem \
   --conf spark.sql.codegen.wholeStage=false \
   --conf spark.kubernetes.pyspark.pythonVersion=3 \
   --conf spark.kubernetes.file.upload.path=s3a://some/path\
   --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \
   --conf spark.kubernetes.authenticate.driver.oauthToken=$TOKEN \
   --conf spark.kubernetes.authenticate.submission.oauthToken=$TOKEN \
   --conf spark.kubernetes.driver.limit.cores=1 \
   --conf spark.driver.memory=4g \
   --conf spark.kubernetes.namespace=my_namespace \
   --files /location/of/my/schema.json \
   --jars /usr/local/airflow/spark/jars/hadoop-aws-3.2.1.jar,/usr/local/airflow/spark/jars/httpclient-4.5.6.jar,/usr/local/airflow/spark/jars/joda-time-2.10.5.jar,/usr/local/airflow/spark/jars/spark-hive_2.12-3.0.0.jar \
   --name my-job-name \
   --deploy-mode cluster \
   some_spark_job.py \
   --table_name my-target-table \
   --topic my-kafka-topic-name \
   --dag_id 1111
driver.extraJavaOptions пробовали указывать?
источник

OI

Oleg Ilinsky in Data Engineers
Gennady Timofeev
driver.extraJavaOptions пробовали указывать?
вроде нет  🤔
источник

ME

Max Efremov in Data Engineers
Mikhail Epikhin
Если не секрет, вы сами кубер и s3 у себя развернули?
а s3 можно не в облаке развернуть?
источник

N

Nikita Blagodarnyy in Data Engineers
minio
источник

N

Nikita Blagodarnyy in Data Engineers
s3 совместимый api
источник

N

Nikita Blagodarnyy in Data Engineers
все почему-то называют его s3
источник

N

Nikita Blagodarnyy in Data Engineers
хотя s3 это название облачного сервиса
источник

ME

Max Efremov in Data Engineers
Хм, а есть что-то типа лямбд, но чтобы у себя развернуть?
источник

T

T in Data Engineers
Max Efremov
Хм, а есть что-то типа лямбд, но чтобы у себя развернуть?
источник

T

T in Data Engineers
на пример
источник

ME

Max Efremov in Data Engineers
Спасибо, интересно)
источник

GT

Gennady Timofeev in Data Engineers
Oleg Ilinsky
вроде нет  🤔
spark.driver.extraJavaOptions='-Divy.cache.dir=/tmp',spark.driver.extraJavaOptions='-Divy.home=/tmp'
источник

T

T in Data Engineers
Max Efremov
Спасибо, интересно)
Это первая ссылка из гугла, а так их полно на базе кубера
источник

ME

Max Efremov in Data Engineers
T
Это первая ссылка из гугла, а так их полно на базе кубера
Мб кто-то и на Firecracker придумал, тогда бы совсем как лямбды было)
источник

ME

Max Efremov in Data Engineers
Не, судя по всему нет. Но можно начать свой амазон строить уже 😂😂😂
источник

OI

Oleg Ilinsky in Data Engineers
Gennady Timofeev
spark.driver.extraJavaOptions='-Divy.cache.dir=/tmp',spark.driver.extraJavaOptions='-Divy.home=/tmp'
А, вот это делал((
Ну и там проблема ещё в том, что указать home непросто, т.к. он генерится в момент запуска в виде /tmp/spark-здоровенный-хеш
источник