Size: a a a

2020 July 31

N

Nikita Blagodarnyy in Data Engineers
Grigory Pomadchin
укажи как снепшот
спасибо, вроде помогло. теперь что-то другое не может найти, но не эти артифакты.
источник

A

Alex in Data Engineers
Nikita Blagodarnyy
не откроет. ссылки 404 выдают. но мавен их нормально ресолвит из того же нексуса.
Может это не меймен резолвит а что-то в кеша осталось?

Так как он тоже не будет для версии снепшот тянуть если не указано
источник

A

Alex in Data Engineers
Привет! А поделитесь плиз информацией какой объем данных и за какой период времени вы своими Спарк джобами обрабатываете
источник

AG

Alexander Gorokhov in Data Engineers
Alex
Привет! А поделитесь плиз информацией какой объем данных и за какой период времени вы своими Спарк джобами обрабатываете
По разному, где то терабайт за час где то 500 гигабайт за 15 минут
источник

A

Alex in Data Engineers
а данные откуда грузятся ?
источник

A

Alex in Data Engineers
тут у всех по разному, но в основном логи/метрики
источник

AG

Alexander Gorokhov in Data Engineers
Alex
а данные откуда грузятся ?
В основном S3, провайдеры разные, инфа разная, атрибуция, кликстрим
источник

A

Alex in Data Engineers
у вас EMR кластер ?
источник

AG

Alexander Gorokhov in Data Engineers
Databricks
источник

A

Alex in Data Engineers
понял, спасибо
источник

T

T in Data Engineers
Alex
Привет! А поделитесь плиз информацией какой объем данных и за какой период времени вы своими Спарк джобами обрабатываете
у меня, не много данных, суммарно порядка 50 - 60 тб дневых логов. Прокручивается все ночью, за примерно часа 4
источник

A

Alex in Data Engineers
а на каком кластере?
источник

T

T in Data Engineers
Alex
а на каком кластере?
emr, разные много разных кластеров, а конфигирирутся автоматически в зависимости от размера входных данных
источник

A

Alex in Data Engineers
вот что б упомянутые 60 тб проработать, до скольких нод скейлится у вас EMR кластер и каких именно типов нод?
источник

A

Alex in Data Engineers
это почти что сферический конь в вакууме =)

кому-то просто отфильтровать и в паркеты переложить
у кого-то cpu bound и построить тепловые карты как у @workales
источник

N

Nikita Blagodarnyy in Data Engineers
Alex
Может это не меймен резолвит а что-то в кеша осталось?

Так как он тоже не будет для версии снепшот тянуть если не указано
не, в кэше точно не было. я отлаживался в шелле с --jars и потом начал собирать в приложение.
источник

T

T in Data Engineers
Alex
вот что б упомянутые 60 тб проработать, до скольких нод скейлится у вас EMR кластер и каких именно типов нод?
там 60 это в сумме, а не на одном кластере, типы разные взависимости от задачи, во восновном r5.8 и выше, гдето есть с5
источник

T

T in Data Engineers
Alex
это почти что сферический конь в вакууме =)

кому-то просто отфильтровать и в паркеты переложить
у кого-то cpu bound и построить тепловые карты как у @workales
+ точно
источник

A

Alex in Data Engineers
T
там 60 это в сумме, а не на одном кластере, типы разные взависимости от задачи, во восновном r5.8 и выше, гдето есть с5
понял, спасибо!
источник

T

T in Data Engineers
Alex
понял, спасибо!
причем там местами, presto в место спарка, наследие импалы
источник