Size: a a a

2021 April 21

ЕГ

Евгений Глотов... in Data Engineers
На реально крупных джобах
источник

ПБ

Повелитель Бури... in Data Engineers
потому что hdfs это треш, и чем быстрее спарк нативно будет дружить с s3 тем лучше
тогда будет нормальное разделение storage и  compute
источник

ИК

Иван Калининский... in Data Engineers
у нас ещё даже попыток начать тащить не было, это я восхищаюсь безумством храбрых
источник

ИК

Иван Калининский... in Data Engineers
масштабируется hdfs достаточно хорошо. И можно minio ещё
источник

D

Dmitry in Data Engineers
а какие проблемы у hdinside с adls ? в рекламе их хадуп пишет на adls
источник

ЕГ

Евгений Глотов... in Data Engineers
Просто у нас спарк на хадупе с ярном, включён преемпшен, решили затестить 3 спарк с шафл трекером. После таск килла он начинает делать что-то вроде 8657/2000 тасков завершено, мы подзабили после этого, невозможно отслеживать прогресс нормально)
источник

ПБ

Повелитель Бури... in Data Engineers
источник

D

Dmitry in Data Engineers
ну а можно в кратце, чем они круче spark job в  hdinside который пишет на adls ?
источник

ПБ

Повелитель Бури... in Data Engineers
я не в курсе про буржуев, но могу предположить что ценой )
источник

GP

Grigory Pomadchin in Data Engineers
А какое дата локалити нужно тебе в спарке при работе с azure блоб сторадж / gcs/s3?
источник

D

Dmitry in Data Engineers
как у hdfs, они же деньги стригут за чтение. если каждый день вычитывать по 50 тб с adls в k8s кластер бюджет я так понимаю спалим в первую неделю
источник

GP

Grigory Pomadchin in Data Engineers
хдфс это отдельная история
источник

D

Dmitry in Data Engineers
я и пытаюсь понять. как у других устроено. если hadoop/hdfs не модно, все поголовно сидят на эксперементальном k8s и платят за весь тот трафик ?
источник

AE

Alexey Evdokimov in Data Engineers
1500 деплоев на emr 6 c третьим спарком, полёт абсолютно нормальный
источник

GP

Grigory Pomadchin in Data Engineers
достаточно что бы было все в одном регионе, о каком трафике ты говоришь?
источник

GP

Grigory Pomadchin in Data Engineers
Конечно у сервисов типа с3 / гкп там плата за пут
источник

AE

Alexey Evdokimov in Data Engineers
на некоторых задачах примерно на 15% быстрее, чем на 2.4. на некоторых никакой разницы
источник

GP

Grigory Pomadchin in Data Engineers
когда они уже на ждк11 перелетят
источник

AE

Alexey Evdokimov in Data Engineers
так что не знаю, экспериментально или нет, но вполне стабильно для прода
источник

AE

Alexey Evdokimov in Data Engineers
х их з. тоже очень хочу :/
источник