17ГБ из постгреса в пандас датафрейм выкачивается где-то за 12 минут. Потом в паркет, на пока не замерял сколько генерится, маленький файл быстро, а в большом ошибка вылетает из-за структуры данных типа array.
То есть я могу каждый час сбрасывать небольшие паркет файлы в папку типа /pg/2020-12-22-14/ и потом просто можно указать папку для таблицы hive в Alter table add partition location "/pg/2020-12-22-14/"?