Size: a a a

2019 December 04

A

Alex in Data Engineers
@igor_dia сейчас в процессе портирования патча из хортоновского спарка чтобы поддерживать sc_install_packages

https://community.cloudera.com/t5/Community-Articles/Using-VirtualEnv-with-PySpark/ta-p/245932
источник

A

Alex in Data Engineers
ну или сразу используйте сборку от хортона =)
источник

A

Alex in Data Engineers
так как тоже в изолированном окружении, то вполне возможно хватит и этой функции

https://github.com/zjffdu/spark/blob/d708997df59d91d1763d353e6d01f20f82e79969/python/pyspark/context.py#L1048
источник

I

Igor in Data Engineers
А можете просто поделиться конфигом? Ну или не мог бы кто-нибудь сказать, куда надо подмонтировать requirements.txt, чтобы при старте контейнера они все поставились?
источник

A

Alex in Data Engineers
=) у меня jupyter + контейнеры на hadoop, так что монтировать некуда
источник

I

Igor in Data Engineers
Alex
=) у меня jupyter + контейнеры на hadoop, так что монтировать некуда
А как юпитер со спарком связывали? я посмотрел штук 6 статей, но они все о случае, когда спарк с юпитером на одном хосте.
источник

A

Alex in Data Engineers
jupyter ui
jupyter egw (сейчас уже не совсем он, а наша реализация гейтвея на java, так как родной egw это страх)

в изолированных хостах sparkmagic и livy

hadoop новый который умеет в docker
в нём kernels в dockers с python/R запускаются и пользователи могут смело делать pip install, R.install_packages

так и сейчас заканчивается в контейнеры на нём переноситься pyspark с хоста и смотрим как дать возможность давать аналог pip install на воркеры
источник

A

Alex in Data Engineers
jupyter + sparkmagic + livy

вроде и zeppelin тоже умеет хорошо в livy
источник

DZ

Dmitry Zuev in Data Engineers
Igor
А можете просто поделиться конфигом? Ну или не мог бы кто-нибудь сказать, куда надо подмонтировать requirements.txt, чтобы при старте контейнера они все поставились?
В чем разница от сборки?
источник

I

Igor in Data Engineers
Dmitry Zuev
В чем разница от сборки?
в том, что ее нету. Для обновления достаточно изменить requirements.txt, и в ранчере нажать редеплой.
источник

I

Igor in Data Engineers
Dmitry Zuev
В чем разница от сборки?
так куда он монтируется?
источник

DZ

Dmitry Zuev in Data Engineers
Тож самое, на ci собираете образ, ставите все из requirements и деплоите
источник

I

Igor in Data Engineers
Dmitry Zuev
Тож самое, на ci собираете образ, ставите все из requirements и деплоите
только без CI
источник

AS

Anton Shelin in Data Engineers
Alex
jupyter ui
jupyter egw (сейчас уже не совсем он, а наша реализация гейтвея на java, так как родной egw это страх)

в изолированных хостах sparkmagic и livy

hadoop новый который умеет в docker
в нём kernels в dockers с python/R запускаются и пользователи могут смело делать pip install, R.install_packages

так и сейчас заканчивается в контейнеры на нём переноситься pyspark с хоста и смотрим как дать возможность давать аналог pip install на воркеры
Мы также мучались со своим добром а потом взяли датабрикс и стало легче
источник

DZ

Dmitry Zuev in Data Engineers
Igor
только без CI
А ну не удивительно что у вас админу лень пакет в сборку поставить
источник

DZ

Dmitry Zuev in Data Engineers
Докер дам - сиай не дам
источник

A

Alex in Data Engineers
Anton Shelin
Мы также мучались со своим добром а потом взяли датабрикс и стало легче
дорого слишком датабрикс выйдет =) ооочень дорого для нас
источник

I

Igor in Data Engineers
Dmitry Zuev
А ну не удивительно что у вас админу лень пакет в сборку поставить
А есть обоснованные причины для постоянной пересборки образов? Ну кроме "я так хочу, потому что так правильно"?
источник

I

Igor in Data Engineers
потому что как по мне, так правильно совсем иначе, а именно - конфигмап с зависимостями примонтировать и ничего не собирать
источник

DZ

Dmitry Zuev in Data Engineers
Для этого докер и нужен, хочешь добавить что-то в окружение, хопа собрал, перенакатил
источник