Size: a a a

2020 December 15

SK

Sergey Kaurov in Data Engineers
Nikita Blagodarnyy
есть еще отличная документация от Arenadata, какая была переведена на русский чтобы мочь быть использованной в чтении
Arenadata - я так понимаю лучшее?
источник

AZ

Anton Zadorozhniy in Data Engineers
Max Efremov
только чтобы кластер локально гонять?
Ну кластер Терадаты, кластер Кафки, кубер, набегает..
источник

N

Nikita Blagodarnyy in Data Engineers
Sergey Kaurov
А для моей задачи Fair Sheduler лучше?
чтобы понять, что для тебя лучше-нужно про каждый понимать, что он из себя представляет. это как спросить-анальгин мне поможет? ну от головы да, от рака-нет.
источник

N

Nikita Blagodarnyy in Data Engineers
Sergey Kaurov
Arenadata - я так понимаю лучшее?
если не читаешь по английски-то единственная. а так вот тут читай

https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/FairScheduler.html
источник

SK

Sergey Kaurov in Data Engineers
Да у меня пока по простому всё. 2.7.7 hadoop и Zeppelin.
Только сейчас стали задачи появляться, что можно улучшить и как. У меня в команде спецов нет. Есть удалённо хороший спец, но там в мыле от задач.
источник

SK

Sergey Kaurov in Data Engineers
А история логов растёт 🌿 и запросы как резиновые растягиваются на год иногда...
источник

ME

Max Efremov in Data Engineers
Sergey Kaurov
А для моей задачи Fair Sheduler лучше?
у самого похожая проблема, пока ещё ничего не менял в конфигах
источник

SK

Sergey Kaurov in Data Engineers
Ещё подзадача - оптимизировать конфигурацию hadoop.
🦾 А есть варианты, которые отличаются в лучшую сторону от того, что по умолчанию?
источник

SK

Sergey Kaurov in Data Engineers
Max Efremov
у самого похожая проблема, пока ещё ничего не менял в конфигах
Вот буду изучать - придётся менять.
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Kaurov
Ещё подзадача - оптимизировать конфигурацию hadoop.
🦾 А есть варианты, которые отличаются в лучшую сторону от того, что по умолчанию?
надо начать с того что смотреть на утилизацию (как со стороны YARN что вы уже делаете, так и на самих узлах в каком-нибудь прометее), понять сколько каким пользователям нужно...
источник

AZ

Anton Zadorozhniy in Data Engineers
но вообще, судя по вашему текущему кластеру, мб вернуться к архитектурному вопросу и отказаться от хадупа, если данных сейчас немного и они особенно расти не будут.. управлять данными просто в одном гордом постгресе будет гораздо проще, инструментов больше..
источник

SK

Sergey Kaurov in Data Engineers
Данных дофигищщааа просто.. Вот в этом как раз и суть. А все запросы все делают под одним пользователем.
источник

SK

Sergey Kaurov in Data Engineers
источник

SK

Sergey Kaurov in Data Engineers
Fifo
источник

AZ

Anton Zadorozhniy in Data Engineers
а сколько это, "дофигищщааа"?
источник

SK

Sergey Kaurov in Data Engineers
Поменял в yarn-site.xml на Fire, перезапустил hadoop
источник

SK

Sergey Kaurov in Data Engineers
Anton Zadorozhniy
а сколько это, "дофигищщааа"?
На каждой ноде почти по 10Tb
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Kaurov
На каждой ноде почти по 10Tb
70 ТБ? это не так много
источник

SK

Sergey Kaurov in Data Engineers
Но это за несколько лет
источник

e

er@essbase.ru in Data Engineers
360*70*N ? )
источник