Size: a a a

2020 July 28

А

Алексей in Data Engineers
источник

M

Mi in Data Engineers
но нужно иметь в виду что бакетированые датасеты в спарке возможны только если есть хайв метадата
источник

AS

Andrey Smirnov in Data Engineers
нет хайва, да это и вообще подзадача (основная задача ускорить встроенный LSH)
источник

A

Alex in Data Engineers
Привет! сегодня процесили Спарком 300 гб данных с S3. Почти все время было потрачено на загрузку данных с S3 в AWS EMR. Куда можно поглядеть по вопросу как максимально оптимизировать/ускорить загрузку данных в EMR с S3?
источник

GP

Grigory Pomadchin in Data Engineers
Alex
Привет! сегодня процесили Спарком 300 гб данных с S3. Почти все время было потрачено на загрузку данных с S3 в AWS EMR. Куда можно поглядеть по вопросу как максимально оптимизировать/ускорить загрузку данных в EMR с S3?
Распараллелить чтение только
источник

GP

Grigory Pomadchin in Data Engineers
Если это возможно
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Привет! сегодня процесили Спарком 300 гб данных с S3. Почти все время было потрачено на загрузку данных с S3 в AWS EMR. Куда можно поглядеть по вопросу как максимально оптимизировать/ускорить загрузку данных в EMR с S3?
Запускать больше узлов
источник

AE

Alexey Evdokimov in Data Engineers
написать свою параллельную замену s3-dist-cp.

ах да, я ж уже написал...
источник

A

Alex in Data Engineers
да, еще инфа - 300 гб не в одном файле - а во множестве разных файлов
источник

AE

Alexey Evdokimov in Data Engineers
и вроде ссылку сюда кидал даже
источник

AE

Alexey Evdokimov in Data Engineers
йеп. много файлов -> раскидываем копирование по екзекуторам
источник

A

Alex in Data Engineers
спасибо!!
источник

A

Alex in Data Engineers
а если я читаю через spark.read.csv куда передаю масив путей к файлам ?
источник

A

Alex in Data Engineers
он под капотом не паралелит?
источник

GP

Grigory Pomadchin in Data Engineers
Alex
он под капотом не паралелит?
паралелит но короче с особенностями
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
он под капотом не паралелит?
Смотря как запускать
источник

GP

Grigory Pomadchin in Data Engineers
если тебе известно как конкретно ты хочешь прочитать то csv сурс убог
источник

GP

Grigory Pomadchin in Data Engineers
Ни контроля параллелизма ни схемы
источник

AZ

Anton Zadorozhniy in Data Engineers
Можно начать с maximizeResourceAllocation
источник

GP

Grigory Pomadchin in Data Engineers
Anton Zadorozhniy
Можно начать с maximizeResourceAllocation
источник