Телеграмм чат группы hadoopusers страница 3073

Это очень маленький кластер, worker parallelism низкий, при этом количество запросов одновременно высокое.. мб ресурсные группы поправить чтобы запросы в очередь вставали

источник

19:42пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

А какая утилизация CPU на узлах, в Прометее или что у вас для метрик..

источник

19:43пожаловаться #13

KS

K S in Data Engineers

Anton Zadorozhniy

А какая утилизация CPU на узлах, в Прометее или что у вас для метрик..

Я сейчас к доктору на приём, позже отпишусь.

источник

19:45пожаловаться #14

NN

No Name in Data Engineers

@s333kr а Вас там одного поставили за инфраструктуру отвечать?

источник

19:54пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Кмк вам надо посмотреть на то куда время в этих запросов уходит, я готов поставить кружку пилзнера что вы подпираете IO, на кластере из 4 узлов при RF3 у вас каждый диск с которого читают с высокой вероятностью и в записи участвует (у вас там insert select виден); мб вы переросли кластер и пора расширяться

источник

19:58пожаловаться #16

KS

K S in Data Engineers

No Name

@s333kr а Вас там одного поставили за инфраструктуру отвечать?

Да, я один и всего 3 недели на этом хозяйстве.

источник

20:04пожаловаться #17

KS

K S in Data Engineers

Anton Zadorozhniy

Кмк вам надо посмотреть на то куда время в этих запросов уходит, я готов поставить кружку пилзнера что вы подпираете IO, на кластере из 4 узлов при RF3 у вас каждый диск с которого читают с высокой вероятностью и в записи участвует (у вас там insert select виден); мб вы переросли кластер и пора расширяться

Спасибо большое, так и есть - предыдущий владелец весь ETL сделал через presto SQL и поэтому нагрузка на hdfs двойная, с одной стороны запросы на инсерты и с другой аналитика. Я с presto встретился 3 недели назад, поэтому прошу прощения за тупые вопросы.

источник

20:08пожаловаться #18

KS

K S in Data Engineers

Anton Zadorozhniy

Кмк вам надо посмотреть на то куда время в этих запросов уходит, я готов поставить кружку пилзнера что вы подпираете IO, на кластере из 4 узлов при RF3 у вас каждый диск с которого читают с высокой вероятностью и в записи участвует (у вас там insert select виден); мб вы переросли кластер и пора расширяться

Я правильно понимаю, что нужно удвоить, а то и утроить количество datanodes в hdfs?

источник

20:09пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

K S

Я правильно понимаю, что нужно удвоить, а то и утроить количество datanodes в hdfs?

Надо понять сначала где вы упираетесь, почему, и потом решать проблем; по трём сообщениям и скриншоту поставить детальный диагноз сложно

источник

20:12пожаловаться #20