Кстати если кому-то надо сделать публикацию (или ведет студентов которым надо), отличная тема - обзор работы PDO по Parquet/ORC для разных компьют фреймворков - и в журнал возьмут, и на конференцию.. У меня был студент который было начал, но отвалился в середине семестра :(
Начинал делать, но это для работы надо было, когда выиграл orc или parquet. Делал сравнение разных типов запросов из Spark, hive и athena, с разными вариантами сортировки, бакетирования и так далее. Начал даже писать статью для хабра с этим сравнением(там цифры, графики, серии замеров на каждый кейс, ну более менее приличное сравнение), но понял, что в меня уже много страниц, а я ещё только малую часть оформил и описал и как - то забил, если честно.