Size: a a a

2020 October 08

AZ

Anton Zadorozhniy in Data Engineers
Azure Files это EFS от ажура
источник

AE

Alexey Evdokimov in Data Engineers
ну да, в даталейке в2
источник

AE

Alexey Evdokimov in Data Engineers
за три года чё-то поменялось?
источник

AZ

Anton Zadorozhniy in Data Engineers
ADLSv2 изначально был с strong consistency по метаданным, это по сути гейтвей где метаданные хранятся в космосдб или чем там сильно целостном, и обеспечивают атомарность операций на группой объектов ("директории" симулируют так)
источник

AZ

Anton Zadorozhniy in Data Engineers
это вроде было в ADLS gen1
источник

AE

Alexey Evdokimov in Data Engineers
я его толком не успел пощупать, до того как мы смигрировали в авс. в 2017 космос дб была ещё в бете :/

но вообще в ажуре телодвижений с инфраструктурой было сильно меньше
источник

AE

Alexey Evdokimov in Data Engineers
и вопросов у сатанистов про "записали 10к файлов, а видим только половину" не возникало. а щас периодически приходится напоминать про различие в семантике
источник

AZ

Anton Zadorozhniy in Data Engineers
Мы с айсбергом развернёмся и все эти поделки (адлс, емрфс) будут не нужны))
источник

R

Roman in Data Engineers
Alexey Evdokimov
и вопросов у сатанистов про "записали 10к файлов, а видим только половину" не возникало. а щас периодически приходится напоминать про различие в семантике
А они вам не говорят, что мол нахера вы так сделали то, что файлы записываются, но иногда появляются не сразу?))))
источник

AE

Alexey Evdokimov in Data Engineers
Roman
А они вам не говорят, что мол нахера вы так сделали то, что файлы записываются, но иногда появляются не сразу?))))
пока не склепал свою волшебную тулзу, спрашивали, почему так долго таски в спарк уи висят после завершения. ну, когда они ещё напрямую резалт в с3 писали с емрфс включенным. таски полчаса могли висеть и "ничего не делать"
источник

VG

Vladimir Gavrilenko in Data Engineers
Alexey Evdokimov
пока не склепал свою волшебную тулзу, спрашивали, почему так долго таски в спарк уи висят после завершения. ну, когда они ещё напрямую резалт в с3 писали с емрфс включенным. таски полчаса могли висеть и "ничего не делать"
какую тулзу?)
источник

AE

Alexey Evdokimov in Data Engineers
замену с3-дист-цп. тут уже срались с кривдой по её поводу :)))
источник

VG

Vladimir Gavrilenko in Data Engineers
Alexey Evdokimov
замену с3-дист-цп. тут уже срались с кривдой по её поводу :)))
написал свою джобу, которая лучше s3-dist-cp? она ж вроде заявляется, что плохих операций не делает, только PUT, тч можно завязаться на read-after-write?
источник

AE

Alexey Evdokimov in Data Engineers
она крайне плохо параллелит запись. можно в ~10 раз быстрее
источник

VG

Vladimir Gavrilenko in Data Engineers
Alexey Evdokimov
она крайне плохо параллелит запись. можно в ~10 раз быстрее
прикольно
не выкладывал в опенсоурс?
источник

AE

Alexey Evdokimov in Data Engineers
Vladimir Gavrilenko
прикольно
не выкладывал в опенсоурс?
оно выложено, ссылку я сюда кидал уже сколько раз. но юзать напрямую не получится, слишком заточено под наши задачи. но выдрать код можно, почему нет
источник

VG

Vladimir Gavrilenko in Data Engineers
Alexey Evdokimov
оно выложено, ссылку я сюда кидал уже сколько раз. но юзать напрямую не получится, слишком заточено под наши задачи. но выдрать код можно, почему нет
если это оно
https://github.com/PastorGL/s3-to-s3-cp/blob/master/src/main/java/io/github/pastorgl/s3tos3cp/Main.java
то не очень понятно, как ты обошел тормоза emrfs, ну да ладно)
источник

AE

Alexey Evdokimov in Data Engineers
это не оно, это другое
источник

A

Alex in Data Engineers
Alexey Evdokimov
а в ажуре филес в2 чё с консистенси?
из того что обзоры смотрел

s3 - евеншуал консистенси по метаданным, можешь записать, а другая джоба не увидит файла
gs - strong в пределах датацентра
azure - strong между датацентрами
источник

AE

Alexey Evdokimov in Data Engineers
Alex
из того что обзоры смотрел

s3 - евеншуал консистенси по метаданным, можешь записать, а другая джоба не увидит файла
gs - strong в пределах датацентра
azure - strong между датацентрами
мы на ажуре тока blob storage юзали, покуда с него совсем не слиняли. та ещё гадость. АДЛ же не успели пощупать толком. щас туда уже не вернуться, к сожалению
источник