Size: a a a

2020 December 20

SK

Sergey Kaurov in Data Engineers
источник

DT

Denis Tsvetkov in Data Engineers
в спарке планировщик делит ресурсы между джобами в пределах одного приложения
источник

SK

Sergey Kaurov in Data Engineers
источник

SK

Sergey Kaurov in Data Engineers
Извиняюсь - удалёнка..
источник

SK

Sergey Kaurov in Data Engineers
Я в fair-sheduler.xml прописал очередь sample_queue
А у меня такого прилодения нет, а zeppelin не описан,поэтому он FIFO?
источник

SK

Sergey Kaurov in Data Engineers
Его туда прописать в место тестовых названия и скажем только очередь ограничить на 10 запрсов и хватит что ьы онивсе ресурсы использовал?
источник

DT

Denis Tsvetkov in Data Engineers
чтобы цеппелин сабмитил джобы в очередь sample_queue, нужно это указать в его настройках
источник

T

T in Data Engineers
Привет накидайте докладов/статей по построению стриминговой архетуры, за последние годы. Которые вам понравились.
источник

DT

Denis Tsvetkov in Data Engineers
ну то есть как
spark-submit MyApp --queue sample_queue
только для цеппелина
источник

SK

Sergey Kaurov in Data Engineers
Denis Tsvetkov
ну то есть как
spark-submit MyApp --queue sample_queue
только для цеппелина
К сожалению мне ни о чём не говорит.. У меня всё по умолчанию было zeppelin - hadoop. Руководство захотело оптимизацию, так как некоторые задания отжирают все ядра и пытаюсь что-то сделать. Прописал в fair-sheduler.xml по образцу из доков sample_queue..
Её обязательно прописывать? Ведь такого приложения у меня нет, а есть zeppelin. Может убрать этот sample_queue и прописать zeppelin?
источник

SK

Sergey Kaurov in Data Engineers
Просто в 📄 доках этот sample_queue как пример, я так понял..
источник

DT

Denis Tsvetkov in Data Engineers
ну это своеобразный выход, конечно

правильнее было бы явно указать, в какой очереди запускается цеппелин,
это можно сделать в настройках интерпретатора, указав в spark.yarn.queue имя очереди
источник

DT

Denis Tsvetkov in Data Engineers
источник

SK

Sergey Kaurov in Data Engineers
Спасибо, изучу. В доках получается написано, очереди создаются (непонял этого из описания в доках Arenadata) , а для них как-то по разному приложения привязываются уже?
источник

DT

Denis Tsvetkov in Data Engineers
это регулируется параметром
yarn.scheduler.fair.user-as-default-queue
https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html#Automatically_placing_applications_in_queues
источник

SK

Sergey Kaurov in Data Engineers
Ага. Спасибо.
источник

SK

Sergey Kaurov in Data Engineers
Смотрю на показатели в UI hadoop..
Зарезервирована память 42G
Используется 36G
Всего 48
Сам zeppelin почему-то 36G использует (раньше Memory Used 43 была..) Н-да
С ядрами так же..
Придётся ещё разбираться что да как.
Хорошо в FIFO можно быстро перевести обратно..
источник

A

Alexander in Data Engineers
Дмитрий
Пишешь на пайспарке, на все узлы кластера спарк ставишь необходимые библиотеки. Немного прийдется поизвращатся. Но работать будет. Можно даже расспаралелить обучение.
У пайспарка есть только модуль для ML, а для DL нету
источник

Д

Дмитрий in Data Engineers
Можно пользоватся всеми библиотеками python.
источник

A

Alexander in Data Engineers
Vladislav 👻 Shishkov
Либо можно завернуть в virtualenv и забрасывать его на спарк-кластер
Очень интересно. Попытался погуглить и не смог найти примеров чтобы люди заворачивали ML/DL модели таким способом. Может вы знаете примеры?
источник