да и писать в конец файла это так принять в индустрии (An ORC file contains groups of row data called stripes, along with auxiliary information in a file footer. At the end of the file a postscript holds compression parameters and the size of the compressed footer.)
потом ещё если пожатый, то буфер декодера компресии, буфер под каждую запись и т.д. — легко 5-6 копий одних и тех же данных, просто чтобы их прочитать из паркетины
о, тем же самым занимаюсь. С той разницей, что нам на самом деле паркет вообще не нужен. Но вместо того, чтобы выпилить паркет, человек написал имплементацию InputFile, которая по 20 раз загружает файл с s3