Телеграмм чат группы hadoopusers страница 2553

12:16пожаловаться #1

А

Алексей in Data Engineers

Andrey Smirnov

тут скорее AND

имел в виду OR так:

(t._partition_key = '2020-01-01' AND t._subpartition_key = 'RU') OR (t._partition_key = '2020-01-02' AND t._subpartition_key = 'EN')

12:28пожаловаться #2

SS

Sergey Sheremeta in Data Engineers

Sergey Sheremeta

коллеги! как-то можно в SparkSQL сделать такое?

select *
from silver_table t
where (t._partition_key, t._subpartition_key) IN ( ('2020-01-01', 'RU'), ('2020-01-02', 'EN') )

получилось так:

select *
from silver_table t
where (t._partition_key, t._subpartition_key) IN ( struct('2020-01-01' as _partition_key, 'RU' as _subpartition_key), struct('2020-01-02' as _partition_key, 'EN' as _subpartition_key) )

12:28пожаловаться #3

А

Алексей in Data Engineers

partition pruning срабатывает?

12:29пожаловаться #4

SS

Sergey Sheremeta in Data Engineers

Алексей

partition pruning срабатывает?

да

12:46пожаловаться #5

А

Алексей in Data Engineers

отлично тогда, возьму на заметку

12:46пожаловаться #6

SS

Sergey Sheremeta in Data Engineers

но у меня spark 3.0.0

я проверил с включенным и выключенным параметром "spark.sql.optimizer.dynamicPartitionPruning.enabled" - в обоих случаях прунинг сработал корректно.
наверное и в spark 2 будет работать

12:58пожаловаться #7

EV

Всем привет!
Подскажите плиз куда копать или какие параметры потюнить попробовать:

На EMR ловлю 503 Slow Down от S3 (судя по стеку это происходит в момент чтения данных) Из-за этого часть тасков валится и после рестарта не может записать файл в целевую директорию в S3 так как файл уже существует, отчего весь джоб падает.

Исходно все расчеты это Spark SQL через Spark Thrift server. EMR 5.29, EMRFS on.

13:10пожаловаться #8

ME

Eduard Vlasov

Всем привет!
Подскажите плиз куда копать или какие параметры потюнить попробовать:

На EMR ловлю 503 Slow Down от S3 (судя по стеку это происходит в момент чтения данных) Из-за этого часть тасков валится и после рестарта не может записать файл в целевую директорию в S3 так как файл уже существует, отчего весь джоб падает.

Исходно все расчеты это Spark SQL через Spark Thrift server. EMR 5.29, EMRFS on.

Ну тут надо писать в техническую поддержку и только ретраи крутить:)

13:32пожаловаться #9

ME

Много мелких файликов?

13:32пожаловаться #10

EV

Много больших файлов я б сказал :)

13:33пожаловаться #11

EV

если кластер маленький - работает

13:33пожаловаться #12

ME

https://aws.amazon.com/premiumsupport/knowledge-center/emr-s3-503-slow-down/

Amazon Web Services, Inc.

Resolve HTTP 503 "Slow Down" AmazonS3Exception in Amazon EMR

13:33пожаловаться #13

EV

если заскейлить до обычного рамера начинает ругаться

13:33пожаловаться #14

ME

There are three ways to resolve this problem:

    Add more prefixes to the S3 bucket.
    Reduce the number of Amazon S3 requests.
    Increase the EMR File System (EMRFS) retry limit.

13:33пожаловаться #15

ME

Eduard Vlasov

если кластер маленький - работает

ну скорее всего экзекьютеров мало и число rps небольшое

13:34пожаловаться #16

ME