Size: a a a

2021 April 13

ЕГ

Евгений Глотов... in Data Engineers
Это надо смотреть, как реализованы форматы данных, из которых читаешь
источник

V

Vol in Data Engineers
ORC  или Parquet
источник

ЕГ

Евгений Глотов... in Data Engineers
По идее, в орке субколонки в плоской структуре лежат, так что оптимизация должна происходить, но я не уверен
источник

AZ

Anton Zadorozhniy in Data Engineers
Это хорновский дизъюнкт
источник

V

Vol in Data Engineers
спасибо
источник

ЕГ

Евгений Глотов... in Data Engineers
Если удастся провести тесты и рассказать-показать тут на практике, то будет прикольно)
источник

V

Vol in Data Engineers
Попробую
источник

NN

No Name in Data Engineers
От инструмента, которым читаешь, тоже зависит. Но вот насколько помню, у второго спарка и паркета лучше взаимодействие с глубокими вложенными структурами, а с орком есть оптимизация не дальше одного уровня вложенности. Но я могу путать, давно читал.
источник

NN

No Name in Data Engineers
И, если память не изменяет, третий спарк стал лучше работать со сложенными структурами орка.
источник

ЕГ

Евгений Глотов... in Data Engineers
Вроде в 2.3 много чего оптимизировали в чтении орка
источник

NN

No Name in Data Engineers
Ну там векторизация была самой клевой темой, после чего вообще появился смысл спарком орк процессить.
источник

RY

Ruslan515 Y in Data Engineers
всем привет. имеется csv размером 90Гб. у меня убунту. входящий в комплект архиватор уже 3 часа архивирует. до этого не смог. вот, вновь по 2му кругу запустил.  вопрос: есть ли другой инструмент для более быстрой архивации больших файлов?
источник

ЕГ

Евгений Глотов... in Data Engineers
Можно спарком репартишен 1 и в сцв гзип записать
источник

RY

Ruslan515 Y in Data Engineers
ок
источник

ЕГ

Евгений Глотов... in Data Engineers
Будет как раз один архив, в котором csv
источник

ЕГ

Евгений Глотов... in Data Engineers
90 гигов тяжеловато, правда
источник

ЕГ

Евгений Глотов... in Data Engineers
А сколько оперативы на тачке?
источник

RY

Ruslan515 Y in Data Engineers
16
источник

ЕГ

Евгений Глотов... in Data Engineers
Сложно сказать, отработает или нет
источник

ЕГ

Евгений Глотов... in Data Engineers
А зачем паковать 90гб в архив?
источник