Телеграмм чат группы hadoopusers страница 3526

Size: a a a

Data Engineers

2021 April 21

ну если все время 100%, то вероятно свое железо дешевле будет. Я думал будет батчевая нагрузка: подняли - посчитали - убили

источник

20:59пожаловаться #1

Dmitry in Data Engineers

я не представляю ентерпрайз где один-два источника и раз в сутки что-то выгружает. там всегда куча навалено, вопрос лишь как быстро ее пытаться разгрести и с каким приоритетом

источник

21:02пожаловаться #2

Dmitry in Data Engineers

ок, подловил. не 100%, а 77-85%
памяти на узлах 300 гб

источник

21:03пожаловаться #3

Anton Zadorozhniy in Data Engineers

ну а сколько свободно?

источник

21:03пожаловаться #4

Dmitry in Data Engineers

а это тут причем ? там импала большую часть жрет

источник

21:04пожаловаться #5

Anton Zadorozhniy in Data Engineers

собсно две команды: cat /proc/loadavg и free -h

источник

21:04пожаловаться #6

Dmitry in Data Engineers

сейчас у нее выходной

источник

21:04пожаловаться #7

Алексей in Data Engineers

разные типы нагрузок бывают. Магазины работают днем, а к утру все хотят получить отчеты за прошлый день..

источник

21:05пожаловаться #8

Dmitry in Data Engineers

ну значит там сотни складов, тысячи точек продаж, всякие crm системы, бухгалтерия. все это валит 24/7

источник

21:06пожаловаться #9

Алексей in Data Engineers

валит может и 24/7, но головной офис хочет видеть отчетность к 9 утра по мск

источник

21:06пожаловаться #10

Dmitry in Data Engineers

зачем кластер останавливать ? в чем бенефит ? опустить, добавить ноды - могу понять, но кластер то накой ?

источник

21:07пожаловаться #11

Anton Zadorozhniy in Data Engineers

последнее сообщение от меня на эту тему:
- у вас 10 джобов, для простоты они друг от друга не зависят
- каждому джобу нужно 1 цпу-час чтобы выполниться
- вы платите провайдеру ресурсов за каждый цпу-час

- вы можете запустить 10 джобов параллельно, на 10 цпу, или последовательно, на 1 цпу

вопросы:
1. будет ли разница в цене?
2. нужно ли оставлять ЦПУ работать вхолостую в случае параллельного запуска когда джобы выполнены?

источник

21:15пожаловаться #12

Dmitry in Data Engineers

1) разницы как я понимаю не будет
2) ЦПУ вхолостую работать не будет ни в один момент времени. если задач меньше, можно узлов оставить столько, сколько треюует ситуация

источник

21:19пожаловаться #13

Dmitry in Data Engineers

еще раз, 10 джобов параллель быстро обработают очередь, но никогда не смогут всю обработать. сотни источников, в каждые 2-3 секунды что-то присылают. какую бы ты не забубенил параллельность, уже через 2-3 секунды прилетит еще что-то

источник

21:22пожаловаться #14

Anton Zadorozhniy in Data Engineers

У вас каждой сообщение из потокового источника вызывает пересчёт всех витрин, требуют всего кластера?

источник

21:24пожаловаться #15

Dmitry in Data Engineers

потоковые нет, но батчевые - да. понятия закрытый период нет, gdpr. инкремент на всю глубину может быть

источник

21:26пожаловаться #16

Anton Zadorozhniy in Data Engineers

В общем we agree to disagree, интересно будет послушать про ваш опыт достижения 100% утилизации в хадупе, сбережете сообществу разработку всех этих улучшений в области opportunistic containers

источник

21:28пожаловаться #17

Anton Zadorozhniy in Data Engineers

Кстати про странные архитектуры и решения, всем интересующимся отраслью в широком смысле рекомендую посмотреть на свежий радар, там есть интересные движения по нашим темам

источник

21:33пожаловаться #18

Алексей in Data Engineers

на это все есть какоето sla? как его гарантировать при такой нагрузке?

источник

21:33пожаловаться #19

Dmitry in Data Engineers

ну эта нагрузка то потому что могём, а не потому что реально надо

источник

21:36пожаловаться #20