Телеграмм чат группы hadoopusers страница 2588

2020 July 28

А

в хайве через одинаково bucketed таблицы делается https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization#LanguageManualJoinOptimization-AutoConversiontoSMBMapJoin

источник

18:04пожаловаться #1

M

Mi in Data Engineers

но нужно иметь в виду что бакетированые датасеты в спарке возможны только если есть хайв метадата

источник

18:04пожаловаться #2

AS

Andrey Smirnov in Data Engineers

нет хайва, да это и вообще подзадача (основная задача ускорить встроенный LSH)

источник

18:05пожаловаться #3

A

Alex in Data Engineers

Привет! сегодня процесили Спарком 300 гб данных с S3. Почти все время было потрачено на загрузку данных с S3 в AWS EMR. Куда можно поглядеть по вопросу как максимально оптимизировать/ускорить загрузку данных в EMR с S3?

источник

19:55пожаловаться #4

GP

Grigory Pomadchin in Data Engineers

Alex

Привет! сегодня процесили Спарком 300 гб данных с S3. Почти все время было потрачено на загрузку данных с S3 в AWS EMR. Куда можно поглядеть по вопросу как максимально оптимизировать/ускорить загрузку данных в EMR с S3?

Распараллелить чтение только

источник

19:57пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

Если это возможно

источник

19:57пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Alex

Привет! сегодня процесили Спарком 300 гб данных с S3. Почти все время было потрачено на загрузку данных с S3 в AWS EMR. Куда можно поглядеть по вопросу как максимально оптимизировать/ускорить загрузку данных в EMR с S3?

Запускать больше узлов

источник

19:57пожаловаться #7

AE

Alexey Evdokimov in Data Engineers

написать свою параллельную замену s3-dist-cp.

ах да, я ж уже написал...

источник

20:00пожаловаться #8

A

Alex in Data Engineers

да, еще инфа - 300 гб не в одном файле - а во множестве разных файлов

источник