Size: a a a

2020 December 22

A

Alex in Data Engineers
Одним файлом?
источник

KS

K S in Data Engineers
Alex
Одним файлом?
Ага
источник

A

Alex in Data Engineers
Мне даже интересно сколько вы его генерить будете
источник

KS

K S in Data Engineers
Alex
Мне даже интересно сколько вы его генерить будете
Вот и я о чём.
источник

ME

Max Efremov in Data Engineers
А почему не разбить его на сотню разных?
источник

KS

K S in Data Engineers
17ГБ из постгреса в пандас датафрейм выкачивается где-то за 12 минут. Потом в паркет, на пока не замерял сколько генерится, маленький файл быстро, а в большом ошибка вылетает из-за структуры данных типа array.
источник

KS

K S in Data Engineers
Max Efremov
А почему не разбить его на сотню разных?
Я хочу его потом в hive как partition by day.
источник

ME

Max Efremov in Data Engineers
K S
Я хочу его потом в hive как partition by day.
Там будут папочки по дням, а внутри паркеты
источник

KS

K S in Data Engineers
Если много маленьких файлов, то понадобится дополнительная процедура слияния в один большой и alter table ...
источник

ME

Max Efremov in Data Engineers
Онож норм такое читает
источник

ME

Max Efremov in Data Engineers
А на мелкие паркеты можно ещё сжатие примерять
источник

KS

K S in Data Engineers
Max Efremov
А на мелкие паркеты можно ещё сжатие примерять
Я не знал, что так можно.
источник

ME

Max Efremov in Data Engineers
Если snappy, то паркет останется сплитабл, а если gzip, то уже нет
источник

KS

K S in Data Engineers
То есть я могу каждый час сбрасывать небольшие паркет файлы в папку типа /pg/2020-12-22-14/ и потом просто можно указать папку для таблицы hive в Alter table add partition location "/pg/2020-12-22-14/"?
источник

ME

Max Efremov in Data Engineers
Хм, я больше про мелкие файлы в папке /yyyymmdd=20201222/
источник

KS

K S in Data Engineers
Max Efremov
Хм, я больше про мелкие файлы в папке /yyyymmdd=20201222/
Аа понял
источник

KS

K S in Data Engineers
То есть за день я туда накидаю где-то 24 * 1ГБ * N of Shards ~ 360ГБ
источник

KS

K S in Data Engineers
Спасибо, мужики! Жизнь то налаживается. 😁
источник

KS

K S in Data Engineers
А название файлов в этой папке без разницы? Например если будет 1-ef.parquet, 1-x20.parquet,..., 23-ef.parquet...
источник

A

Alex in Data Engineers
Насколько помню да, хайв только путь хранит до папки
источник