Телеграмм чат группы hadoopusers страница 3373

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2348 membersпожаловаться на группу

2021 March 15

МЛ

Максим Лыжков... in Data Engineers

Артур Семенов

Как правильно запустить python-скрипт через spark2-submit в cluster mode, с учетом того, что в условном файле запуска: run.py есть импорты из других пакетов (соседней директории с модулем)
Пробовал через сборку пакета в .egg файл и добавления его в py-files - не взлетает (получаю ошибку non zero exit code 13)

собираешь нужные тебе модули в папку, (допустим с именем zipmodule) собираешь папку в .zip,
в Спарк сабмите указываешь зип в pyfiles конфе
Спарк сам разошлёт зип на воркеры и добавит в PYTHONPATH
В run.py делаешь from zipmodule.yourmodule import somefunction

источник

10:08пожаловаться #1

АС

Артур Семенов... in Data Engineers

Максим Лыжков

собираешь нужные тебе модули в папку, (допустим с именем zipmodule) собираешь папку в .zip,
в Спарк сабмите указываешь зип в pyfiles конфе
Спарк сам разошлёт зип на воркеры и добавит в PYTHONPATH
В run.py делаешь from zipmodule.yourmodule import somefunction

То есть, если у меня есть модуль core (q.py, w.py, e.py init.pyinit.py)
Я его просто зипую и в run.py делаю from core.q import func
Верно?

источник

10:10пожаловаться #2

МЛ

Максим Лыжков... in Data Engineers

верно

источник

10:11пожаловаться #3

МЛ

Максим Лыжков... in Data Engineers

только зипуй содержимое папки, а не папку

источник

10:16пожаловаться #4

МЛ

Максим Лыжков... in Data Engineers

чтобы в архиве сразу было то что тебе нужно, без промежуточной папки

источник

10:17пожаловаться #5

A

Alexander in Data Engineers

KrivdaTheTriewe

Ребят го в @datajobs

Там давно уж не про jobs 😁

источник

10:42пожаловаться #6

ME

Max Efremov in Data Engineers

Там что-то тоже техничечкое началось...

источник

10:46пожаловаться #7

AS

Andrey Smirnov in Data Engineers

Артур Семенов

Как правильно запустить python-скрипт через spark2-submit в cluster mode, с учетом того, что в условном файле запуска: run.py есть импорты из других пакетов (соседней директории с модулем)
Пробовал через сборку пакета в .egg файл и добавления его в py-files - не взлетает (получаю ошибку non zero exit code 13)

можно через конда ставить нужные пакеты на кластер

источник

10:55пожаловаться #8

UD

Uncel Duk in Data Engineers

Артур Семенов

Как правильно запустить python-скрипт через spark2-submit в cluster mode, с учетом того, что в условном файле запуска: run.py есть импорты из других пакетов (соседней директории с модулем)
Пробовал через сборку пакета в .egg файл и добавления его в py-files - не взлетает (получаю ошибку non zero exit code 13)

https://conda.github.io/conda-pack/spark.html

источник

10:58пожаловаться #9

АС

Артур Семенов... in Data Engineers

проблема в том, что конды нет, и все "нужные" пакеты уже стоят на клестаре в парселях, кроме собственных модулей

источник

11:02пожаловаться #10

А

Андрей in Data Engineers

Местное производство

источник

11:04пожаловаться #11

АС

Артур Семенов... in Data Engineers

Максим Лыжков

чтобы в архиве сразу было то что тебе нужно, без промежуточной папки

сделал, в core.zip лежат только *.py файлы, но при запуске сабмита получаю ошибку: Cannot load main class from JAR path/to/core.zip

источник

11:05пожаловаться #12

PE

Petr Ermakov in Data Engineers

Артур Семенов

сделал, в core.zip лежат только *.py файлы, но при запуске сабмита получаю ошибку: Cannot load main class from JAR path/to/core.zip

А там нет.so файлов?

источник

11:10пожаловаться #13

PE

Petr Ermakov in Data Engineers

zipimport не умеет.so

источник

11:10пожаловаться #14

АС

Артур Семенов... in Data Engineers

эту ошибку исправил (нужно было убрать пробел между перечислением в py-files)
Но контекст так и не взлетел, с той же ошибкой
non zero exit code 13

источник

11:10пожаловаться #15

VG

Vladimir Gavrilenko in Data Engineers

Артур Семенов

эту ошибку исправил (нужно было убрать пробел между перечислением в py-files)
Но контекст так и не взлетел, с той же ошибкой
non zero exit code 13

Код драйвера не должен паковаться

источник

11:17пожаловаться #16

VG

Vladimir Gavrilenko in Data Engineers

https://github.com/vladimir-gavrilenko/pyspark-boilerplate

vladimir-gavrilenko/pyspark-boilerplate

Contribute to vladimir-gavrilenko/pyspark-boilerplate development by creating an account on GitHub.

источник

11:17пожаловаться #17

АС

Артур Семенов... in Data Engineers

Vladimir Gavrilenko

Код драйвера не должен паковаться

файл, который я запускаю нахожится вне архива

источник

11:18пожаловаться #18

UD

Uncel Duk in Data Engineers

Артур Семенов

проблема в том, что конды нет, и все "нужные" пакеты уже стоят на клестаре в парселях, кроме собственных модулей

конда на кластере не нужна

источник

11:19пожаловаться #19

АС

Артур Семенов... in Data Engineers

```

spark2-submit \
    --deploy-mode cluster \
    --master yarn \
    --principal examplename \
    --py-files dist/data_model_feed-0.1.0-py3.5.egg,core.zip \
    --keytab examplename-aa.keytab \
    --driver-memory 64GB \
    --conf spark.app.name=submit_test \
    --conf spark.executor.memory=18GB \
    --conf spark.executor.cores=8 \
    --conf spark.dynamic.allocationEnabled=true \
    --conf spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation=true \
    --verbose \
    run.py

```

источник

11:19пожаловаться #20