Size: a a a

2021 October 20

R

Renarde in Data Engineers
А вот не знаю, честно говоря, я в таких деталях не разбираюсь 💁‍♂️
Знаю что при хайлоаде и стримах в обычный s3 раньше можно напороться на проблемы из за eventual consistency, но судя по апдейтам вот тут в 2021 во всех стораждах все хорошо с consistency:

https://spark.apache.org/docs/latest/cloud-integration.html#consistency
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну это вроде уже починили некоторое время как, года три, наверное.
источник

ПФ

Паша Финкельштейн... in Data Engineers
И, кажется, этого нельзя починить извне
источник

R

Renarde in Data Engineers
Это 100% можно починить извне, S3 guard как пример
источник

ПФ

Паша Финкельштейн... in Data Engineers
О, прикольно, не знал. Интересно, как они это делают strict
источник

AS

Andrey Smirnov in Data Engineers
Так сам s3 стал стрикт
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну это я и говорю, да, что несколько лет, кажется, как стал
источник

ПФ

Паша Финкельштейн... in Data Engineers
Но может сначала там были баги )))
источник

ИК

Иван Калининский... in Data Engineers
источник

ИК

Иван Калининский... in Data Engineers
Внешний клиент/агент может, например, пытаться прочитать и в случае эксепшена ждать и ретраить. В HDFS так пришлось делать при дописывании файлов. Про s3 точно сказать не могу
источник

AZ

Anton Zadorozhniy in Data Engineers
хм, я тут вот заглядывал к знакомым в архитектуру, у них так сделано
источник

N

Nikolay in Data Engineers
Strict serializable это же про транзакции более чем над одним обьектом т.е с multi-object operations , а в S3 таких нет. Или уже сделали?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Хм, одиночность объекта - сложное понятие. В БД это типа атом какой-то. А что это такое в фс? Я бы сказал что запись нескольких блоков на диске...
источник

AZ

Anton Zadorozhniy in Data Engineers
Strong ISR = serializability + linearizability, второе это самое строгая целостность для операций по одному объекту
источник

AZ

Anton Zadorozhniy in Data Engineers
Кто забыл отношения гарантий - вот удобная картинка 😊 https://twitter.com/dartov/status/910904120617439234
источник

N

Nikolay in Data Engineers
Почему сложное. есть обьекты в S3. каждый из них является одним обьектом. у джепсона хорошо про стрикт расписанно "It is also a multi-object property: operations can act on multiple objects in the system. Indeed, strict serializability applies not only to the particular objects involved in a transaction, but to the system as a whole–operations may act on predicates, like “the set of all cats”."  https://jepsen.io/consistency/models/strict-serializable
источник

N

Nikolay in Data Engineers
если бы мы могли делать транзакции , которые бы включали в себя put, delete над разными обьектами, то могли бы говорить о системе, как о strict-serializable, а пока такое только в переди
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк это и не в планах для самой S3, амазон для этого сильно в айсберг вкладывается
источник

N

Nikolay in Data Engineers
они в документации и linearizability не упоминают . Эта модель - linearizability не включает в себя поведение в случае ошибки. возможно, что из-за этого они и в доке избегат
источник

AS

Alexey Stavrov in Data Engineers
Не ISR, а 1SR
1 -  это one-copy.

Linearizable - это не самая строгая. Есть есть strict consistency.
источник