Телеграмм чат группы hadoopusers страница 1736

Всем привет, подскажите пожалуйста как лучше всего настроить spark edge node для EMR кластера?
На AWS есть гайд как поставить все на ec2, но он очень плох, много вещей не хватает и там описано только около 30% работы

источник

15:36пожаловаться #5

Vladimir E. in Data Engineers

Ещё слышал предложение сделать AMI image из мастер ноды и запускать ec2 уже с ним

источник

15:36пожаловаться #6

Vladimir E. in Data Engineers

Edge node нужен именно чтоб spark сабмитил задачи через spark-submit и подключался к hdfs/hive (glue)

источник

15:37пожаловаться #7

Anton Zadorozhniy in Data Engineers

Vladimir E.

а почему вы мастер не хотите использовать как эдж?

источник

15:39пожаловаться #8

Vladimir E. in Data Engineers

Будет несколькл кластеров, хотелось бы иметь возможность переключаться между ними с одной машины

источник

15:39пожаловаться #9

Vladimir E. in Data Engineers

Просто разные конфиги ставить

источник

15:40пожаловаться #10

Vladimir E. in Data Engineers

А вообще обычно мастер и используется как edge?

источник

15:40пожаловаться #11

Vladimir E. in Data Engineers

Просто мне ещё кажется что это не очень хорошая практика, вдруг будет много Спарк джобов которые заберут всю память у ноды и мастер отвалится

источник

15:42пожаловаться #12

Vladimir E. in Data Engineers

Ну и ещё проблемы с тем что айпи разные у мастер при пересоздании кластера

источник

15:43пожаловаться #13

Eduard Vlasov in Data Engineers

На мастере нагрузка не запускается

источник

15:44пожаловаться #14

Anton Zadorozhniy in Data Engineers

да, обычно мастер для запуска используется

источник

15:45пожаловаться #15

Anton Zadorozhniy in Data Engineers

там работают мастер сервисы, но с учетом того что EMR кластера редко многопользовательские и многозадачные, то риски не большие; я в своей практике никогда не ронял мастер, правда я скажем ноутбуки запускаю все-таки на отдельных нодах / кластерах

источник

15:47пожаловаться #16

Anton Zadorozhniy in Data Engineers

Vladimir E.

Ну и ещё проблемы с тем что айпи разные у мастер при пересоздании кластера

так есть же AWS API, можно через него получить адреса при запуске

источник

15:48пожаловаться #17

Anton Zadorozhniy in Data Engineers

или вообще запускать джоб при создании кластера, как завещали создатели EMR

источник

15:48пожаловаться #18