Size: a a a

2019 November 05

AZ

Anton Zadorozhniy in Data Engineers
я видел демонсетом запущенный сервис, который дергают для хаускипинга, там можно попробовать подхачить что-то
источник

S

Serg Slipushenko in Data Engineers
Нам важно последний выхлоп в лог... А пост хук пока добавить в экзек нельзя без костылей
источник

S

Serg Slipushenko in Data Engineers
Но вообще идейка интересная) у нас мутейшен вебхук на экзеки уже есть...
источник

LP

Lilit Pahlevanyan in Data Engineers
источник

VE

Vladimir E. in Data Engineers
Всем привет, подскажите пожалуйста как лучше всего настроить spark edge node для EMR кластера?
На AWS есть гайд как поставить все на ec2, но он очень плох, много вещей не хватает и там описано только около 30% работы
источник

VE

Vladimir E. in Data Engineers
Ещё слышал предложение сделать AMI image из мастер ноды и запускать ec2 уже с ним
источник

VE

Vladimir E. in Data Engineers
Edge node нужен именно чтоб spark сабмитил задачи через spark-submit и подключался к hdfs/hive (glue)
источник

AZ

Anton Zadorozhniy in Data Engineers
Vladimir E.
Всем привет, подскажите пожалуйста как лучше всего настроить spark edge node для EMR кластера?
На AWS есть гайд как поставить все на ec2, но он очень плох, много вещей не хватает и там описано только около 30% работы
а почему вы мастер не хотите использовать как эдж?
источник

VE

Vladimir E. in Data Engineers
Будет несколькл кластеров, хотелось бы иметь возможность переключаться между ними с одной машины
источник

VE

Vladimir E. in Data Engineers
Просто разные конфиги ставить
источник

VE

Vladimir E. in Data Engineers
А вообще обычно мастер и используется как edge?
источник

VE

Vladimir E. in Data Engineers
Просто мне ещё кажется что это не очень хорошая практика, вдруг будет много Спарк джобов которые заберут всю память у ноды и мастер отвалится
источник

VE

Vladimir E. in Data Engineers
Ну и ещё проблемы с тем что айпи разные у мастер при пересоздании кластера
источник

EV

Eduard Vlasov in Data Engineers
На мастере нагрузка не запускается
источник

AZ

Anton Zadorozhniy in Data Engineers
да, обычно мастер для запуска используется
источник

AZ

Anton Zadorozhniy in Data Engineers
там работают мастер сервисы, но с учетом того что EMR кластера редко многопользовательские и многозадачные, то риски не большие; я в своей практике никогда не ронял мастер, правда я скажем ноутбуки запускаю все-таки на отдельных нодах / кластерах
источник

AZ

Anton Zadorozhniy in Data Engineers
Vladimir E.
Ну и ещё проблемы с тем что айпи разные у мастер при пересоздании кластера
так есть же AWS API, можно через него получить адреса при запуске
источник

AZ

Anton Zadorozhniy in Data Engineers
или вообще запускать джоб при создании кластера, как завещали создатели EMR
источник

VE

Vladimir E. in Data Engineers
Anton Zadorozhniy
так есть же AWS API, можно через него получить адреса при запуске
Можно, но дополнительно все это нужно будет настраивать и менять айпишники во многих местах
источник

AZ

Anton Zadorozhniy in Data Engineers
Vladimir E.
Можно, но дополнительно все это нужно будет настраивать и менять айпишники во многих местах
вы просто в своем планировщике указываете не spark-submit, а wrapper скрипт который запускает джоб на кластере / сам кластер
источник