Size: a a a

2021 March 23

KS

K S in Data Engineers
На входе паркет файлы, которые мерджатся с другими паркет файлами.
источник

KS

K S in Data Engineers
Результат сохраняется в S3
источник

KS

K S in Data Engineers
В соседней команде предлагают использовать шардинг при помощи consistent hashing, но что то меня в этом смущает, вроде бы этот подход хорош для баз данных если нужно добавить шарды без ребилда таблицы.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Как можно равномерно сбалансировать входящие данные, которые наверняка не поместятся в спарковский кластер (AWS Glue)? Ещё есть ограничение по времени, не дольше часа, поскольку поступит новая партия данных.
В чем проявляется skew, на джоинах?
источник

AZ

Anton Zadorozhniy in Data Engineers
насколько я помню, если перекошенный датасет не помещается в броадкаст - ему подсаливают ключи, но все вручную; может быть есть что-то новое и автоматическое, но я давно не заглядывал в эту часть
источник

AZ

Anton Zadorozhniy in Data Engineers
Но мне интересно как решают сейчас skew, надеюсь опытные коллеги расскажут
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
Но мне интересно как решают сейчас skew, надеюсь опытные коллеги расскажут
В спарке 3 вроде есть механизмы проведения skew join
источник

ЕГ

Евгений Глотов... in Data Engineers
Но в броадкаст джойне skewness по идее никак не влияет на время работы
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
В спарке 3 вроде есть механизмы проведения skew join
я помню что читал что-то такое, но если вопрошающему не помогло - может оно не автоматически активируется?
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
я помню что читал что-то такое, но если вопрошающему не помогло - может оно не автоматически активируется?
А в aws уже подъехал 3 спарк?
источник

ЕГ

Евгений Глотов... in Data Engineers
Я просто не в курсе, к сожалению, мы тут на дедовских хадупах в своих датацентрах сидим)
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
Но в броадкаст джойне skewness по идее никак не влияет на время работы
броадкаст как способ просто не распределять перекошенный датасет по ключу, а копировать целиком
источник

ЕГ

Евгений Глотов... in Data Engineers
Anton Zadorozhniy
броадкаст как способ просто не распределять перекошенный датасет по ключу, а копировать целиком
А, ну можно в принципе, только если он сильно большой, то придётся на много кусков делить, может быть не особо эффективно
источник

AZ

Anton Zadorozhniy in Data Engineers
Евгений Глотов
А в aws уже подъехал 3 спарк?
в EMR да, но кстати в AWS Glue только 2.4.3, мб в этом проблема
источник

ЕГ

Евгений Глотов... in Data Engineers
А, ну вот, плюс ещё алгоритмы новые, непроверенные, на прод может не все пустят вот так сразу
источник

ЕГ

Евгений Глотов... in Data Engineers
У нас 3.01 не взлетел например - преемпшен ломает новый шаффлтрекер, а новая версия обычного экстернал шафл сервиса с хайвом 1.2.1 образует джар хэлл)
источник

EK

Evgenii Kuznetcov in Data Engineers
Евгений Глотов
У нас 3.01 не взлетел например - преемпшен ломает новый шаффлтрекер, а новая версия обычного экстернал шафл сервиса с хайвом 1.2.1 образует джар хэлл)
Та же проблема. Не нашел способ грэйсфулли мигрировать без поднятия второго ярна
источник

А

Алексей in Data Engineers
Anton Zadorozhniy
я помню что читал что-то такое, но если вопрошающему не помогло - может оно не автоматически активируется?
источник

А

Алексей in Data Engineers
spark.sql.adaptive.enabled и еще чтото должно быть включено
источник

А

Алексей in Data Engineers
источник