Size: a a a

2020 November 03

ИК

Иван Калининский... in Data Engineers
Коллеги, подскажите, как читать Parquet в dataset/rdd в соотношении 1 файл - одна партиция rdd. Там надо мудрить с maxPartitionBytes и стоимостью открытия файла, или есть способ проще и надёжнее? Или вообще способа нет, просто прочитать и сделать .repartition?
источник

AS

Andrey Smirnov in Data Engineers
Иван Калининский
Коллеги, подскажите, как читать Parquet в dataset/rdd в соотношении 1 файл - одна партиция rdd. Там надо мудрить с maxPartitionBytes и стоимостью открытия файла, или есть способ проще и надёжнее? Или вообще способа нет, просто прочитать и сделать .repartition?
можно подсчитать кол-во файлов в директории и читать нужным числом партиций?
источник

SS

Sergey Sheremeta in Data Engineers
Anton Zadorozhniy
ну вот Терадата даже небольших размеров держит два десятка интерактивных пользователей на сильно больших объемах, 95 процентиль для тактических запросов в районе 2-5 секунд вроде
а Терадата нагибает Экзадату?
источник

АЖ

Андрей Жуков... in Data Engineers
Sergey Sheremeta
а Терадата нагибает Экзадату?
вот это наброс
источник

SS

Sergey Sheremeta in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
а Терадата нагибает Экзадату?
ну мы тут не тинейджеры во дворе чтобы кто-то кого-то нагибал.. технически это разные архитектуры (intelligent storage vs pure shared nothing mpp) и разные легаси реализаций, для каких-то сценариев лучше подойдет одна, для каких-то другая
источник

SS

Sergey Sheremeta in Data Engineers
блин, Антон - профи! не поддается
источник

АЖ

Андрей Жуков... in Data Engineers
опыт!
источник

AZ

Anton Zadorozhniy in Data Engineers
но обе эти СУБД с архитектурой из прошлого века, и видимо не будут в новый переписаны, так что если вы архитектор продукта который с ними конкурирует - спокойно пишите дальше, у вас есть все шансы на успех (см историю сноуфлейк)
источник

ИК

Иван Калининский... in Data Engineers
Andrey Smirnov
можно подсчитать кол-во файлов в директории и читать нужным числом партиций?
Подсчитать не проблема, уже сделано. Как задать число партиций? defaultParallelism?
источник

AS

Andrey Smirnov in Data Engineers
Иван Калининский
Подсчитать не проблема, уже сделано. Как задать число партиций? defaultParallelism?
была такая идея, но видимо попробовали и не работает?
источник

VS

Vasily Shabanov in Data Engineers
ага, там таблицы руками надо переназначивать
источник

VS

Vasily Shabanov in Data Engineers
запусти снова плиз
источник

ДН

Дмитрий Негреев... in Data Engineers
Sergey Sheremeta
а Терадата нагибает Экзадату?
единственное что нагибает экзадата - это кошелек)
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
но обе эти СУБД с архитектурой из прошлого века, и видимо не будут в новый переписаны, так что если вы архитектор продукта который с ними конкурирует - спокойно пишите дальше, у вас есть все шансы на успех (см историю сноуфлейк)
Назад в монолиты переобулись почти уже
источник

UD

Uncel Duk in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncel Duk
Назад в монолиты переобулись почти уже
what?
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
но обе эти СУБД с архитектурой из прошлого века, и видимо не будут в новый переписаны, так что если вы архитектор продукта который с ними конкурирует - спокойно пишите дальше, у вас есть все шансы на успех (см историю сноуфлейк)
я конечно извиняюсь, но как по мне Snowflake концептуально не отличается от Teradata или других DWH, просто он cloud-native.
поправь меня если я не прав
источник

UD

Uncel Duk in Data Engineers
Ну каргокульт за фаангами начал буксовать
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
я конечно извиняюсь, но как по мне Snowflake концептуально не отличается от Teradata или других DWH, просто он cloud-native.
поправь меня если я не прав
snowflake построен изначально под клауд: все хранение изначально в S3, кластер по сути держит WAL и кэши, отсюда обновления и скейлинг без остановки, спокойно переживают всякие падения и проч
источник