Телеграмм чат группы hadoopusers страница 4363

Привет, а кто-нибудь видел Docker образ c PySpark, в котором не надо танцевать с бубном, настраивая SPARK_HOME и тд? Чтобы просто выполнить 'python app.py', в котором спарк сессия что-то считает.

источник

14:14пожаловаться #6

Alexander in Data Engineers

Мне этот нравится https://github.com/thedatainsight/docker-spark-cluster

источник

14:18пожаловаться #7

ЕГ

Евгений Глотов... in Data Engineers

Так в этом app.py и настроишь спарк-хоум😆

источник

14:20пожаловаться #8

Евгений in Data Engineers

короче проблема странная
все настроено и SPARK_HOME подхватывается правильно (из /app/spark-3.0.3-bin-hadoop2.7/)
но на строке spark = SparkSession.builder.getOrCreate()
падает, вот текст ошибки

spark = SparkSession.builder.getOrCreate()
  File "/app/spark-3.0.3-bin-hadoop2.7/python/pyspark/sql/session.py", line 186, in getOrCreate
    sc = SparkContext.getOrCreate(sparkConf)
  File "/app/spark-3.0.3-bin-hadoop2.7/python/pyspark/context.py", line 378, in getOrCreate
    SparkContext(conf=conf or SparkConf())
  File "/app/spark-3.0.3-bin-hadoop2.7/python/pyspark/context.py", line 133, in __init__
    SparkContext._ensure_initialized(self, gateway=gateway, conf=conf)
  File "/app/spark-3.0.3-bin-hadoop2.7/python/pyspark/context.py", line 327, in _ensure_initialized
    SparkContext._gateway = gateway or launch_gateway(conf)
  File "/app/spark-3.0.3-bin-hadoop2.7/python/pyspark/java_gateway.py", line 95, in launch_gateway
    proc = Popen(command, **popen_kwargs)
  File "/opt/conda/lib/python3.9/subprocess.py", line 951, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
  File "/opt/conda/lib/python3.9/subprocess.py", line 1821, in _execute_child
    raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: 'spark-3.0.3-bin-hadoop2.7/./bin/spark-submit'

мне непонятно
1) почему на строке proc = Popen(command, **popen_kwargs) идет обращение к другому питону, который не в папке со спарком
2) тот путь к файлу 'spark-3.0.3-bin-hadoop2.7/./bin/spark-submit', на который он ругается, формируется так:

script = "./bin/spark-submit"
command = [os.path.join(SPARK_HOME, script)]

и он точно есть, странно что питон из п.1 его не видит

источник

14:29пожаловаться #9

ЕГ

Евгений Глотов... in Data Engineers

Сделай print(os.environ["SPARK_HOME"])

источник

14:32пожаловаться #10

Евгений in Data Engineers

print(os.getenv('SPARK_HOME'))
/app/spark-3.0.3-bin-hadoop2.7

источник

14:33пожаловаться #11

ЕГ

Евгений Глотов... in Data Engineers

А, у тебя вообще отдельная переменная, не надо так, сделай переменную окружения

источник

14:33пожаловаться #12

ЕГ

Евгений Глотов... in Data Engineers

У тебя SPARK_HOME - переменная, а не env var

источник

14:33пожаловаться #13

Евгений in Data Engineers

в Dockerfile я ее задаю так
ENV SPARK_HOME=/app/spark-3.0.3-bin-hadoop2.7
это неправильно?

источник

14:34пожаловаться #14

Евгений in Data Engineers

print(os.environ["SPARK_HOME"])
тоже выводит /app/spark-3.0.3-bin-hadoop2.7
то есть SPARK_HOME задан правильно, да и в первой строчке ошибки видно что сессия хочет запуститься из правильного пути

источник

14:39пожаловаться #15

ЕГ

Евгений Глотов... in Data Engineers

Вот поменяй переменную в питоне на
script = "./bin/spark-submit"
command = [os.path.join(os.getenv("SPARK_HOME"), script)]

источник

14:40пожаловаться #16

Евгений in Data Engineers

то есть править код спарка? Эта строка в файле
https://github.com/apache/spark/blob/master/python/pyspark/java_gateway.py#L64

источник

14:42пожаловаться #17

Евгений in Data Engineers

поправил, не помогло
да и не в этом проблема
почему во время исполнения строки
proc = Popen(command, **popen_kwargs)
идет обращение к subprocess из другого питона, а не из спарковского
File "/opt/conda/lib/python3.9/subprocess.py", line 951, in init
?

источник

14:48пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

Что значит спарковский питон?

источник

14:55пожаловаться #19

ЕГ

Евгений Глотов... in Data Engineers

Спарк работает с тем питоном, из-под которого ты сессию запускаешь

источник

14:55пожаловаться #20