Телеграмм чат группы hadoopusers страница 2871

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 October 14

ME

Mikhail Epikhin in Data Engineers

ok

источник

18:02пожаловаться #1

ME

Mikhail Epikhin in Data Engineers

Если не секрет, вы сами кубер и s3 у себя развернули?

источник

18:04пожаловаться #2

ME

Mikhail Epikhin in Data Engineers

Или в облаке в каком-то?

источник

18:04пожаловаться #3

OI

Oleg Ilinsky in Data Engineers

Mikhail Epikhin

Или в облаке в каком-то?

У нас свой minio и OpenShift.
Ну как мы) у нас в компании другая команда этим занимается

источник

19:01пожаловаться #4

GT

Gennady Timofeev in Data Engineers

подробнее про проблему я вот тут писал
Ошибка классический file not found exception

сам сабмит вот такой.
Внутри питон скрипта особо неважно, что т.к. он не выполнялся

export PYTHONPATH=/usr/local/bin/
export PYSPARK_PYTHON=python
export SPARK_HOME=/usr/local/airflow/spark
export JAVA_HOME=/usr/lib/jvm/adoptopenjdk-8-hotspot-amd64/jdk8u252-b09/
export PATH=$SPARK_HOME/bin:$JAVA_HOME/bin:$PATH
export HOST_IP=$(ifconfig | grep 'inet 10.' | awk '{print $2}')
spark-submit \
    --master k8s://master.aaa.abbb:8443 \
    --conf spark.kubernetes.container.image=my-registry/spark/3.0.0/spark-py:latest \
    --conf spark.kubernetes.authenticate.caCertFile=cert.crt \
    --conf spark.kubernetes.authenticate.serviceAccountName=spark \
    --conf spark.kubernetes.authenticate.oauthToken=$TOKEN \
    --conf spark.kubernetes.namespace=my_namespace \
    --conf spark.kubernetes.executor.limit.cores=0.2 \
    --conf spark.kubernetes.executor.request.cores=0.2 \
    --conf spark.executor.cores=1 \
    --conf spark.executor.memory=600M \
    --conf spark.executor.instances=20 \
    --conf spark.kubernetes.memoryOverheadFactor=0.9 \
    --conf spark.hadoop.fs.s3a.endpoint=https://s3.endpoint \
    --conf spark.hadoop.fs.s3a.access.key=s3-key \
    --conf spark.hadoop.fs.s3a.secret.key=s3-password \
    --conf spark.hadoop.fs.s3a.path.style.access=true \
    --conf spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem \
    --conf spark.sql.codegen.wholeStage=false \
    --conf spark.kubernetes.pyspark.pythonVersion=3 \
    --conf spark.kubernetes.file.upload.path=s3a://some/path\
    --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \
    --conf spark.kubernetes.authenticate.driver.oauthToken=$TOKEN \
    --conf spark.kubernetes.authenticate.submission.oauthToken=$TOKEN \
    --conf spark.kubernetes.driver.limit.cores=1 \
    --conf spark.driver.memory=4g \
    --conf spark.kubernetes.namespace=my_namespace \
    --files /location/of/my/schema.json \
    --jars /usr/local/airflow/spark/jars/hadoop-aws-3.2.1.jar,/usr/local/airflow/spark/jars/httpclient-4.5.6.jar,/usr/local/airflow/spark/jars/joda-time-2.10.5.jar,/usr/local/airflow/spark/jars/spark-hive_2.12-3.0.0.jar \
    --name my-job-name \
    --deploy-mode cluster \
    some_spark_job.py \
    --table_name my-target-table \
    --topic my-kafka-topic-name \
    --dag_id 1111

driver.extraJavaOptions пробовали указывать?

источник

19:07пожаловаться #5

OI

Oleg Ilinsky in Data Engineers

Gennady Timofeev

driver.extraJavaOptions пробовали указывать?

вроде нет 🤔

источник

19:08пожаловаться #6

ME

Max Efremov in Data Engineers

Mikhail Epikhin

Если не секрет, вы сами кубер и s3 у себя развернули?

а s3 можно не в облаке развернуть?

источник

19:12пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

minio

источник

19:13пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

s3 совместимый api

источник

19:13пожаловаться #9

N

Nikita Blagodarnyy in Data Engineers

все почему-то называют его s3

источник

19:14пожаловаться #10

N

Nikita Blagodarnyy in Data Engineers

хотя s3 это название облачного сервиса

источник

19:15пожаловаться #11

ME

Max Efremov in Data Engineers

Хм, а есть что-то типа лямбд, но чтобы у себя развернуть?

источник

19:15пожаловаться #12

T

T in Data Engineers

Хм, а есть что-то типа лямбд, но чтобы у себя развернуть?

https://www.openfaas.com/

OpenFaaS - Serverless Functions Made Simple

Home

Serverless Functions Made Simple with Kubernetes.

источник

19:17пожаловаться #13

T

T in Data Engineers

на пример

источник

19:17пожаловаться #14

ME

Max Efremov in Data Engineers

Спасибо, интересно)

источник

19:19пожаловаться #15

GT

Gennady Timofeev in Data Engineers

вроде нет 🤔

spark.driver.extraJavaOptions='-Divy.cache.dir=/tmp',spark.driver.extraJavaOptions='-Divy.home=/tmp'

источник

19:19пожаловаться #16

T

T in Data Engineers

Спасибо, интересно)

Это первая ссылка из гугла, а так их полно на базе кубера

источник

19:19пожаловаться #17

ME

Max Efremov in Data Engineers

Это первая ссылка из гугла, а так их полно на базе кубера

Мб кто-то и на Firecracker придумал, тогда бы совсем как лямбды было)

источник

19:20пожаловаться #18

ME

Max Efremov in Data Engineers

Не, судя по всему нет. Но можно начать свой амазон строить уже 😂😂😂

источник

19:29пожаловаться #19

OI

Oleg Ilinsky in Data Engineers

Gennady Timofeev

spark.driver.extraJavaOptions='-Divy.cache.dir=/tmp',spark.driver.extraJavaOptions='-Divy.home=/tmp'

А, вот это делал((
Ну и там проблема ещё в том, что указать home непросто, т.к. он генерится в момент запуска в виде /tmp/spark-здоровенный-хеш

источник

19:51пожаловаться #20