В принципе можно просто разделить время 3.5 часа в процентном соотношении и получить время на большую таблицу. А оптимизацию отслеживать по общему времени.
У тебя могут 2 джоба лить эти 2 таблицы, больше всего по времени, и добавление еще джобов не даст уменьшения времени. Ну и диски переделать конечно, если это не луны внешнего массива.
Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.
Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄
Вопрос именно технический, а не с точки зрения data privacy )
Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.
Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄
Вопрос именно технический, а не с точки зрения data privacy )
Берёшь Big Data Tools, копирушь с одного кластера на другой и процессишь