Size: a a a

2020 September 16

ДН

Дмитрий Негреев... in Data Engineers
Dmitry Zuev
С шедулером какие-то проблем не было.
А сколько параллельно тасок шедулер ворочает?
И какие ресурсы даёте если не секрет
источник

DZ

Dmitriy Zaytsev in Data Engineers
Dmitry Zuev
Скок у вас джоб в час?
Да я какт не считал даже. У нас около сотни дагов, некоторые оооочень жирные.
Возможно эти ресурсы избыточны немного, но оно всё равно на большом общем пуле запускается.
источник

DZ

Dmitry Zuev in Data Engineers
Ну у нас тож сотни. Шедулер обычно не жрал ничего толком.
источник

DZ

Dmitry Zuev in Data Engineers
Дмитрий Негреев
А сколько параллельно тасок шедулер ворочает?
И какие ресурсы даёте если не секрет
В пике думаю сотни
источник

DZ

Dmitry Zuev in Data Engineers
Ресурсы не скажу, лень лезть
источник

ДН

Дмитрий Негреев... in Data Engineers
Ну раз вы сказали оратору выше, что 6 ядер это много, видать у вас не больше 4
источник

DZ

Dmitriy Zaytsev in Data Engineers
NAME                            CPU(cores)   MEMORY(bytes)
abby-airflow-569bdd57f8-77nc9   6543m        5645Mi
источник

DZ

Dmitriy Zaytsev in Data Engineers
Потребление в моменте ☝️
источник

DZ

Dmitry Zuev in Data Engineers
Надо посмотреть скок у нас в пике
источник

DZ

Dmitry Zuev in Data Engineers
Dmitriy Zaytsev
NAME                            CPU(cores)   MEMORY(bytes)
abby-airflow-569bdd57f8-77nc9   6543m        5645Mi
Ну ядра выше реквеста даже. А памяти явно не 64гб
источник

ДН

Дмитрий Негреев... in Data Engineers
Да я тут анкорную модель исследую, т.к. каждый атрибут считается сам по себе, отвожу каждый в отдельную таску (пока не хочется лепить все в одну).
Прикинул так, что у меня на 10 дагах уже под 2 сотни параллельных тасок.
А это только кусок одного источника, коих несколько десятков.
источник

DZ

Dmitriy Zaytsev in Data Engineers
Проще запустить и замерить, чем гадать
источник

ДН

Дмитрий Негреев... in Data Engineers
И если говорить о том, что тасок наверно минимум 1000 будет параллельно, а то и больше, то шедулер в кубике с 4 ядрами и 8 гигами памяти просто не рабочее решение
источник

DZ

Dmitry Zuev in Data Engineers
Дмитрий Негреев
И если говорить о том, что тасок наверно минимум 1000 будет параллельно, а то и больше, то шедулер в кубике с 4 ядрами и 8 гигами памяти просто не рабочее решение
А считаете на чем?
источник

ДН

Дмитрий Негреев... in Data Engineers
Ну вот щас на 200+ тасках 4 ядра в полку.
+ Троттлинг 80%.
Конечно он сбавится, когда сами таски с локал экзекутора куда-то съедут, но предвкушая сколько их будет в итоге,такое чувство что шедулеру надо будет сильно больше
источник

DZ

Dmitry Zuev in Data Engineers
Что за таски то?
У нас на аф ничего не считается, ток запускаем
источник

ДН

Дмитрий Негреев... in Data Engineers
Таски из разряда залезть в файл (прочитать конфиг) и собрать запрос для вертики, все elt, никакой логики в аф нет
источник

ДН

Дмитрий Негреев... in Data Engineers
Честной нагрузки на шедулер пока не знаю к сожалению, у меня пока все внутри 1 пода живет
источник

ДН

Дмитрий Негреев... in Data Engineers
А почему селери? В kubernetes executor нет необходимости?
источник

DZ

Dmitry Zuev in Data Engineers
Дмитрий Негреев
А почему селери? В kubernetes executor нет необходимости?
Когда катили не было еще
источник