Мы тут все не очень датаинженеры, но картинка какая-то очень однобокая и очень выборочная, с упором на клауды, и то на все. Где mpp решения? Где самая лучшая в мире база? Где тот же спрак? Где NiFi?
Год назад активно копал эту тему - ничего распространённого не нашёл. Остаётся толкьл ковыряться с настройками writerа на спарке/хайве и полями сортировки. Мне в свое время это дало прирост в сжатии в более чем полтора раза. Но, конечно, это не бесплатно.