Size: a a a

2021 April 22

GP

Grigory Pomadchin in Data Engineers
зета еще
источник

GP

Grigory Pomadchin in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
А вторая причина в том что жизненный цикл контейнера в ярне построен с запасом, и между тем как нагрузка закончилась от одной задачи и началась для другой - довольно большая пауза
источник

NN

No Name in Data Engineers
Я так понимаю, что динамическая аллокация ресурсов в том же спарке не смогла решить эту проблему?
источник

NN

No Name in Data Engineers
Интересно, не знал, спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
Динамическая аллокация это довольно тупая штука, она не настолько умная чтобы с этим помочь (он тупо смотрит на pending tasks, никакую утилизацию не меряет, запросы ресурсов не меняет в зависимости от утилизации)
источник

AZ

Anton Zadorozhniy in Data Engineers
Там heartbeat протокол, по умолчанию 3 или 5 секунд, так что для коротких задач простои довольно заметные
источник

ЕГ

Евгений Глотов... in Data Engineers
Она опять же только на выделенные ресурсы работает, но не на реально используемые
источник

K

KrivdaTheTriewe in Data Engineers
Кека
источник

AZ

Anton Zadorozhniy in Data Engineers
Все эти проблемы от того что аллокация не связана с утилизацией, ярн раздаёт по сути квоты, ничего не зная (и даже не имея механизма узнать) об утилизации
источник

t

tenKe in Data Engineers
lolkek-architecture
источник

ЕГ

Евгений Глотов... in Data Engineers
Пока таск ждёт от неймноды инфу о местоположении блока, проц не используется
источник

NN

No Name in Data Engineers
Вот это мой уровень
источник

ME

Max Efremov in Data Engineers
Архитектор посмеяться нарисовал, а заказчик одобрил?)
источник

K

KrivdaTheTriewe in Data Engineers
А потом как начнет считать пару часов
источник

NN

No Name in Data Engineers
А что-то из нового/современного позволяет эту проблему хоть как-то уменьшить? Применительно к хадуп/ярн. Или все уже сваливают в облака, и там с этим лучше?
источник

AZ

Anton Zadorozhniy in Data Engineers
В облаках с этим лучше только за счёт гибкости, всякие EMR maxSparkResourceAllocation есть
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

ЕГ

Евгений Глотов... in Data Engineers
Там вроде всё то же самое, платишь за выделенное, с не за используемое
источник

ЕГ

Евгений Глотов... in Data Engineers
Я как-то забыл кластерок в азуре выключить
источник