Телеграмм чат группы hadoopusers страница 1796

Надо немного глубже)

вам до уровня short-circuit reads на hdfs и перекидывания файлового дескриптора через доменный сокет?

16:49пожаловаться #1

Anton Zadorozhniy in Data Engineers

Раз про S3 то скорее про детали реализации S3Guard или про EMRFS, но все равно нужен конкретный вопрос

16:50пожаловаться #2

Привет всем, можете посоветовать статьи или что-то где можно было бы разобраться s3 и спарком, как они взаимодействуют, как Hadoop и с3...
Как идёт вычитка и запись в файл

если кратко: копируйте в HDFS на кластере, будет сильно быстрее. до десятков раз в зависимости от условий

16:51пожаловаться #3

Laines in Data Engineers

Alex

вам до уровня short-circuit reads на hdfs и перекидывания файлового дескриптора через доменный сокет?

Наверное да...

16:51пожаловаться #4

Laines in Data Engineers

Alexey Evdokimov

если кратко: копируйте в HDFS на кластере, будет сильно быстрее. до десятков раз в зависимости от условий

Тут возник вопрос в том что копирование на шдфс не хотят а сразу на с3... Но так как я не сильно в этом. Хочу разобраться в этом вопросе. Как быстрее, в чем плюсы и минусы

кластер где в aws?

Laines in Data Engineers

кластер где в aws?

Да

16:53пожаловаться #7

Да

кластер постоянный или по запросу поднимается?

16:54пожаловаться #8

проведите бенчмарк. сделайте какой-нибудь расчёт, который много читает и много пишет, и убедитесь что времени на общение с с3 тратится во много раз больше, чем на сам расчёт

16:54пожаловаться #9

BTW не забудте включить vpc s3 endpoint

16:54пожаловаться #10

легко может быть всего 15 минут в спарке, но 3 часа на копирование по сети туда и обратно

16:55пожаловаться #11

ну в s3 лучше с аппенд модом писать

16:56пожаловаться #12

иначе он пишет в стейджинг директорию и потом копирует данные

https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html

16:56пожаловаться #13

Mikhail in Data Engineers

Databricks

Top 5 Reasons for Choosing S3 over HDFS - The Databricks Blog

In this blog post, we share our thoughts on why cloud storage is the optimal choice for data storage in the cloud.

16:57пожаловаться #14

иначе он пишет в стейджинг директорию и потом копирует данные

не смотрел новые редиз ноутсы может они это пофиксили

16:58пожаловаться #15

Alex in Data Engineers

скажите кто должен победить, а ворклоад под указанные базы я напишу =)

16:58пожаловаться #16

Alex in Data Engineers

Mikhail эти все статьи из той же оперы

16:58пожаловаться #17

Amazon EMR introduces EMR runtime for Apache Spark | Amazon Web Services

тут aws кстати не давно присылали сылку на то что они рантайм спарка улучшили https://aws.amazon.com/blogs/big-data/amazon-emr-introduces-emr-runtime-for-apache-spark/

Amazon Web Services

Amazon EMR is happy to announce Amazon EMR runtime for Apache Spark, a performance-optimized runtime environment for Apache Spark that is active by default on Amazon EMR clusters. EMR runtime for Spark is up to 32 times faster than EMR 5.16, with 100% API compatibility with open-source Spark. This means that your workloads run faster, […]

16:59пожаловаться #18

Mikhail in Data Engineers

Alex

скажите кто должен победить, а ворклоад под указанные базы я напишу =)

sticker.webp

(62.65 Кб)

17:00пожаловаться #19

ну-ну, We used TPC-DS benchmark queries with 3 TB scale and ran them on a six-node c4.8xlarge EMR cluster
там какой линк до с3 с таким размером ноды? 10гбит?