Size: a a a

2020 July 22

EV

Eduard Vlasov in Data Engineers
вот я и думаю как можно через spark sql потюнить параллелизм
источник

ME

Mikhail Epikhin in Data Engineers
ну ретраи крутить на троттлинге глупо, т.к. увеличение только увеличит число запросов, а уменьшение увеличит вероятность падения
источник

ME

Mikhail Epikhin in Data Engineers
я бы число executors покрутил, уменьшил и посмотрел бы как файлики лежат
источник

ME

Mikhail Epikhin in Data Engineers
они все с одним префиксом?
источник

EV

Eduard Vlasov in Data Engineers
нет, партиции по дням
источник

ME

Mikhail Epikhin in Data Engineers
ну и возможно техническая поддерка может просто throttling limit увеличить
источник

ME

Mikhail Epikhin in Data Engineers
Eduard Vlasov
нет, партиции по дням
тогда совсем странно
источник

EV

Eduard Vlasov in Data Engineers
я наслышан о компетентности поддержки aws, но походу придется таки писать им
источник

ME

Mikhail Epikhin in Data Engineers
А много экезкьюторов, много тасков и как быстро они исполняются? Т.е. реально  в эти 4Krps на бакет упираетесь?
источник

EV

Eduard Vlasov in Data Engineers
40 машин 80 экзекуторов
источник

EV

Eduard Vlasov in Data Engineers
тасков 1900 в этой джобе
источник

EV

Eduard Vlasov in Data Engineers
у меня появилась идея задрать ретраи в небо и проверить чо будет
источник

EV

Eduard Vlasov in Data Engineers
там же exponential backoff вроде как
источник

AE

Alexey Evdokimov in Data Engineers
Art
Texas, resolution 10, заняло ~5 минут. Такая ли проблема все таки?
ты нормальный аутлайн возьми, а не прямоугольник. несколько интереснее будет
источник

AE

Alexey Evdokimov in Data Engineers
Паша Финкельштейн
думается для маленьких стран легче понимать по стране. Вопрос что делать с фигнёй типа России, Канады, кто там ещё
в России мы только куски вокруг городов считаем, а то чё-то никто не живёт в стране у нас :)
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, поделитесь бест-практиками по сведению в единый git-репозиторий  всего кода ETL для spark и spark structured streaming...
источник

AZ

Anton Zadorozhniy in Data Engineers
cp && git add . && git commit
источник

SS

Sergey Sheremeta in Data Engineers
чтобы там всякие деплойменты можно было запускать (обои менять, корованы грабить)
источник

EV

Eduard Vlasov in Data Engineers
Sergey Sheremeta
коллеги, поделитесь бест-практиками по сведению в единый git-репозиторий  всего кода ETL для spark и spark structured streaming...
Завели DBT для батчевых преобразований и радуемся
источник

ME

Mikhail Epikhin in Data Engineers
Anton Zadorozhniy
cp && git add . && git commit
git push —force
источник