Size: a a a

2020 December 18

KS

K S in Data Engineers
Пайплайн такой Metabase > Presto > Hive
источник

KS

K S in Data Engineers
Сервера bare metal, поэтому конфигурация не такая уж флексибл, идёт сразу пачками по 12/24/48 cpu cores; 32/64/128/256GB ram.
источник

KS

K S in Data Engineers
Руководство старорежимное, поэтому в облако не хочет.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Сервера bare metal, поэтому конфигурация не такая уж флексибл, идёт сразу пачками по 12/24/48 cpu cores; 32/64/128/256GB ram.
Надо наверное понять во что упирается, мб у вас спилл на тормозные диски идет, или статистика не собрана и планы плохие
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну и напишите какой кластер и какой дистрибутив
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Ну и напишите какой кластер и какой дистрибутив
Presto v.318
источник

KS

K S in Data Engineers
источник

KS

K S in Data Engineers
Hadoop 3.1.1
источник

KS

K S in Data Engineers
1 namenode, 4 datanodes.
источник

KS

K S in Data Engineers
Все дистрибутивы опен сорс
источник

KS

K S in Data Engineers
Я предлагал руководству перейти на платные дистрибутивы Presto от StarBurst,но когда они увидели счёт сразу же отказались.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
1 namenode, 4 datanodes.
Это очень маленький кластер, worker parallelism низкий, при этом количество запросов одновременно высокое.. мб ресурсные группы поправить чтобы запросы в очередь вставали
источник

AZ

Anton Zadorozhniy in Data Engineers
А какая утилизация CPU на узлах, в Прометее или что у вас для метрик..
источник

KS

K S in Data Engineers
Anton Zadorozhniy
А какая утилизация CPU на узлах, в Прометее или что у вас для метрик..
Я сейчас к доктору на приём, позже отпишусь.
источник

NN

No Name in Data Engineers
@s333kr а Вас там одного поставили за инфраструктуру отвечать?
источник

AZ

Anton Zadorozhniy in Data Engineers
Кмк вам надо посмотреть на то куда время в этих запросов уходит, я готов поставить кружку пилзнера что вы подпираете IO, на кластере из 4 узлов при RF3 у вас каждый диск с которого читают с высокой вероятностью и в записи участвует (у вас там insert select виден); мб вы переросли кластер и пора расширяться
источник

KS

K S in Data Engineers
No Name
@s333kr а Вас там одного поставили за инфраструктуру отвечать?
Да, я один и всего 3 недели на этом хозяйстве.
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Кмк вам надо посмотреть на то куда время в этих запросов уходит, я готов поставить кружку пилзнера что вы подпираете IO, на кластере из 4 узлов при RF3 у вас каждый диск с которого читают с высокой вероятностью и в записи участвует (у вас там insert select виден); мб вы переросли кластер и пора расширяться
Спасибо большое, так и есть - предыдущий владелец весь ETL сделал через presto SQL и поэтому нагрузка на hdfs двойная, с одной стороны запросы на инсерты и с другой аналитика. Я с presto встретился 3 недели назад, поэтому прошу прощения за тупые вопросы.
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Кмк вам надо посмотреть на то куда время в этих запросов уходит, я готов поставить кружку пилзнера что вы подпираете IO, на кластере из 4 узлов при RF3 у вас каждый диск с которого читают с высокой вероятностью и в записи участвует (у вас там insert select виден); мб вы переросли кластер и пора расширяться
Я правильно понимаю, что нужно удвоить, а то и утроить количество datanodes в hdfs?
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Я правильно понимаю, что нужно удвоить, а то и утроить количество datanodes в hdfs?
Надо понять сначала где вы упираетесь, почему, и потом решать проблем; по трём сообщениям и скриншоту поставить детальный диагноз сложно
источник