Size: a a a

2021 April 22

GP

Grigory Pomadchin in Data Engineers
ты вроде похожий код пишешь
источник

AS

Andrey Smirnov in Data Engineers
да и писать в конец файла это так принять в индустрии (An ORC file contains groups of row data called stripes, along with auxiliary information in a file footer. At the end of the file a postscript holds compression parameters and the size of the compressed footer.)
источник

P

Pavel in Data Engineers
а тут не в S3 вся боль? там ж не POSIX
источник

AE

Alexey Evdokimov in Data Engineers
основная боль в том, что паркетный костыль делает readFully(byte[], ...)
источник

AE

Alexey Evdokimov in Data Engineers
то есть читает файл целиком в память
источник

AE

Alexey Evdokimov in Data Engineers
это к вопросу "на что она так дико и бестолково тратится?"
источник

OI

Oleg Ilinsky in Data Engineers
источник

AE

Alexey Evdokimov in Data Engineers
потом ещё если пожатый, то буфер декодера компресии, буфер под каждую запись и т.д. — легко 5-6 копий одних и тех же данных, просто чтобы их прочитать из паркетины
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
своя глина лучше (с) (наверное)
источник

P

Pavel in Data Engineers
вопрос про кубер, коллеги.
у кого-то бывает, что куб нахер срёт на activeDeadlineSeconds, выставленный для джобов?
источник

AE

Alexey Evdokimov in Data Engineers
пиздёж и провокация. на первый раз прощу.
источник

GP

Grigory Pomadchin in Data Engineers
ну ты тут очень много ж глины вкидывал продавая это как то что ты был вынужден и тд и тп
так вот и эти бибилиотеки такие по схожим с твоими причинам
источник

K

KrivdaTheTriewe in Data Engineers
тут прям F[_] просится, чтобы абстракции были
источник

GP

Grigory Pomadchin in Data Engineers
не хватает эфектфул апи да
источник

AE

Alexey Evdokimov in Data Engineers
не у всех кластера на 700 нод по 20 тб оперативы
источник

OI

Oleg Ilinsky in Data Engineers
ага
в приличных конторах ща 1000+
источник

AE

Alexey Evdokimov in Data Engineers
если приходится считать каждый сраный бакс, то заливать кривизну софта железом тупо не на что
источник

EK

Evgenii Kuznetcov in Data Engineers
о, тем же самым занимаюсь.
С той разницей, что нам на самом деле паркет вообще не нужен.
Но вместо того, чтобы выпилить паркет, человек написал имплементацию InputFile, которая по 20 раз загружает файл с s3
источник

AE

Alexey Evdokimov in Data Engineers
во-первых, 1 раз. во-вторых, паркет мне приходит снаружи. я ж не могу выпилить поставщика данных, и заставить слать его в цсв тоже не могу.
источник