Телеграмм чат группы hadoopusers страница 3084

17ГБ из постгреса в пандас датафрейм выкачивается где-то за 12 минут. Потом в паркет, на пока не замерял сколько генерится, маленький файл быстро, а в большом ошибка вылетает из-за структуры данных типа array.

источник

11:35пожаловаться #6

K S in Data Engineers

Max Efremov

А почему не разбить его на сотню разных?

Я хочу его потом в hive как partition by day.

источник

11:36пожаловаться #7

Max Efremov in Data Engineers

K S

Я хочу его потом в hive как partition by day.

Там будут папочки по дням, а внутри паркеты

источник

11:37пожаловаться #8

K S in Data Engineers

Если много маленьких файлов, то понадобится дополнительная процедура слияния в один большой и alter table ...

источник

11:37пожаловаться #9

Max Efremov in Data Engineers

Онож норм такое читает

источник

11:37пожаловаться #10

Max Efremov in Data Engineers

А на мелкие паркеты можно ещё сжатие примерять

источник

11:37пожаловаться #11

K S in Data Engineers

Max Efremov

А на мелкие паркеты можно ещё сжатие примерять

Я не знал, что так можно.

источник

11:38пожаловаться #12

Max Efremov in Data Engineers

Если snappy, то паркет останется сплитабл, а если gzip, то уже нет

источник

11:39пожаловаться #13

K S in Data Engineers

То есть я могу каждый час сбрасывать небольшие паркет файлы в папку типа /pg/2020-12-22-14/ и потом просто можно указать папку для таблицы hive в Alter table add partition location "/pg/2020-12-22-14/"?

источник

11:41пожаловаться #14

Max Efremov in Data Engineers

Хм, я больше про мелкие файлы в папке /yyyymmdd=20201222/

источник

11:43пожаловаться #15

K S in Data Engineers

Max Efremov

Хм, я больше про мелкие файлы в папке /yyyymmdd=20201222/

Аа понял

источник

11:44пожаловаться #16