Size: a a a

2019 November 20

A

Alex in Data Engineers
Laines
Надо немного глубже)
вам до уровня short-circuit reads на hdfs и перекидывания файлового дескриптора через доменный сокет?
источник

AZ

Anton Zadorozhniy in Data Engineers
Раз про S3 то скорее про детали реализации S3Guard или про EMRFS, но все равно нужен конкретный вопрос
источник

AE

Alexey Evdokimov in Data Engineers
Laines
Привет всем, можете посоветовать статьи или что-то где можно было бы разобраться s3 и спарком, как они взаимодействуют, как Hadoop и с3...
Как идёт вычитка и запись в файл
если кратко: копируйте в HDFS на кластере, будет сильно быстрее. до десятков раз в зависимости от условий
источник

L

Laines in Data Engineers
Alex
вам до уровня short-circuit reads на hdfs и перекидывания файлового дескриптора через доменный сокет?
Наверное да...
источник

L

Laines in Data Engineers
Alexey Evdokimov
если кратко: копируйте в HDFS на кластере, будет сильно быстрее. до десятков раз в зависимости от условий
Тут возник вопрос в том что копирование на шдфс не хотят а сразу на с3... Но так как я не сильно в этом. Хочу разобраться в этом вопросе. Как быстрее, в чем плюсы и минусы
источник

T

T in Data Engineers
Laines
Тут возник вопрос в том что копирование на шдфс не хотят а сразу на с3... Но так как я не сильно в этом. Хочу разобраться в этом вопросе. Как быстрее, в чем плюсы и минусы
кластер где в aws?
источник

L

Laines in Data Engineers
T
кластер где в aws?
Да
источник

T

T in Data Engineers
Laines
Да
кластер постоянный или по запросу поднимается?
источник

AE

Alexey Evdokimov in Data Engineers
Laines
Тут возник вопрос в том что копирование на шдфс не хотят а сразу на с3... Но так как я не сильно в этом. Хочу разобраться в этом вопросе. Как быстрее, в чем плюсы и минусы
проведите бенчмарк. сделайте какой-нибудь расчёт, который много читает и много пишет, и убедитесь что времени на общение с с3 тратится во много раз больше, чем на сам расчёт
источник

T

T in Data Engineers
BTW не забудте включить vpc s3 endpoint
источник

AE

Alexey Evdokimov in Data Engineers
легко может быть всего 15 минут в спарке, но 3 часа на копирование по сети туда и обратно
источник

T

T in Data Engineers
ну в s3 лучше с аппенд модом писать
источник

T

T in Data Engineers
иначе он пишет в стейджинг директорию и потом копирует данные
источник

M

Mikhail in Data Engineers
источник

T

T in Data Engineers
T
иначе он пишет в стейджинг директорию и потом копирует данные
не смотрел новые редиз ноутсы может они это пофиксили
источник

A

Alex in Data Engineers
скажите кто должен победить, а ворклоад под указанные базы я напишу =)
источник

A

Alex in Data Engineers
Mikhail эти все статьи из той же оперы
источник

T

T in Data Engineers
тут aws кстати не давно присылали сылку на то что они рантайм спарка улучшили https://aws.amazon.com/blogs/big-data/amazon-emr-introduces-emr-runtime-for-apache-spark/
источник

M

Mikhail in Data Engineers
Alex
скажите кто должен победить, а ворклоад под указанные базы я напишу =)
источник

AE

Alexey Evdokimov in Data Engineers
ну-ну, We used TPC-DS benchmark queries with 3 TB scale and ran them on a six-node c4.8xlarge EMR cluster
там какой линк до с3 с таким размером ноды? 10гбит?
источник