Телеграмм чат группы hadoopusers страница 3420

Size: a a a

Data Engineers

2359 membersпожаловаться на группу

2021 March 23

K S in Data Engineers

На входе паркет файлы, которые мерджатся с другими паркет файлами.

источник

08:49пожаловаться #1

K S in Data Engineers

Результат сохраняется в S3

источник

08:50пожаловаться #2

K S in Data Engineers

В соседней команде предлагают использовать шардинг при помощи consistent hashing, но что то меня в этом смущает, вроде бы этот подход хорош для баз данных если нужно добавить шарды без ребилда таблицы.

источник

08:53пожаловаться #3

Anton Zadorozhniy in Data Engineers

K S

Как можно равномерно сбалансировать входящие данные, которые наверняка не поместятся в спарковский кластер (AWS Glue)? Ещё есть ограничение по времени, не дольше часа, поскольку поступит новая партия данных.

В чем проявляется skew, на джоинах?

источник

10:13пожаловаться #4

Anton Zadorozhniy in Data Engineers

насколько я помню, если перекошенный датасет не помещается в броадкаст - ему подсаливают ключи, но все вручную; может быть есть что-то новое и автоматическое, но я давно не заглядывал в эту часть

источник

10:26пожаловаться #5

Anton Zadorozhniy in Data Engineers

Но мне интересно как решают сейчас skew, надеюсь опытные коллеги расскажут

источник

10:34пожаловаться #6

ЕГ

Евгений Глотов... in Data Engineers

Anton Zadorozhniy

Но мне интересно как решают сейчас skew, надеюсь опытные коллеги расскажут

В спарке 3 вроде есть механизмы проведения skew join

источник

10:35пожаловаться #7

ЕГ

Евгений Глотов... in Data Engineers

Но в броадкаст джойне skewness по идее никак не влияет на время работы

источник

10:36пожаловаться #8

Anton Zadorozhniy in Data Engineers

Евгений Глотов

В спарке 3 вроде есть механизмы проведения skew join

я помню что читал что-то такое, но если вопрошающему не помогло - может оно не автоматически активируется?

источник

10:41пожаловаться #9

ЕГ

Евгений Глотов... in Data Engineers

Anton Zadorozhniy

я помню что читал что-то такое, но если вопрошающему не помогло - может оно не автоматически активируется?

А в aws уже подъехал 3 спарк?

источник

10:42пожаловаться #10

ЕГ

Евгений Глотов... in Data Engineers

Я просто не в курсе, к сожалению, мы тут на дедовских хадупах в своих датацентрах сидим)

источник

10:43пожаловаться #11

Anton Zadorozhniy in Data Engineers

Евгений Глотов

Но в броадкаст джойне skewness по идее никак не влияет на время работы

броадкаст как способ просто не распределять перекошенный датасет по ключу, а копировать целиком

источник

10:43пожаловаться #12

ЕГ

Евгений Глотов... in Data Engineers

Anton Zadorozhniy

броадкаст как способ просто не распределять перекошенный датасет по ключу, а копировать целиком

А, ну можно в принципе, только если он сильно большой, то придётся на много кусков делить, может быть не особо эффективно

источник

10:44пожаловаться #13

Anton Zadorozhniy in Data Engineers

Евгений Глотов

А в aws уже подъехал 3 спарк?

в EMR да, но кстати в AWS Glue только 2.4.3, мб в этом проблема

источник

10:44пожаловаться #14

ЕГ

Евгений Глотов... in Data Engineers

А, ну вот, плюс ещё алгоритмы новые, непроверенные, на прод может не все пустят вот так сразу

источник

10:45пожаловаться #15

ЕГ

Евгений Глотов... in Data Engineers

У нас 3.01 не взлетел например - преемпшен ломает новый шаффлтрекер, а новая версия обычного экстернал шафл сервиса с хайвом 1.2.1 образует джар хэлл)

источник

10:47пожаловаться #16

Evgenii Kuznetcov in Data Engineers

Евгений Глотов

Та же проблема. Не нашел способ грэйсфулли мигрировать без поднятия второго ярна

источник

10:53пожаловаться #17

Алексей in Data Engineers

Anton Zadorozhniy

я помню что читал что-то такое, но если вопрошающему не помогло - может оно не автоматически активируется?

https://www.slideshare.net/databricks/deep-dive-into-the-new-features-of-apache-spark-30 - 20 слайд

www.slideshare.net