Size: a a a

2020 August 13

AZ

Anton Zadorozhniy in Data Engineers
если вы обращаетесь к данным в ваших регулярных процессах то вам Glacier не нужен, это для архивов и бэкапов
источник

A

Alex in Data Engineers
вот читаю про Glacier, что на S3 можно автоматически настроить архивирование в Glacier из S3 по политикам. Я смогу как-то програмно отловить событие архивирования(когда наступит его время)..  там к примеру через AWS Lambda?
источник

AZ

Anton Zadorozhniy in Data Engineers
через SNS
источник

AZ

Anton Zadorozhniy in Data Engineers
Glacier это еще один Storage Class (точнее их два вида), мб вам промежуточные подойдут https://aws.amazon.com/s3/storage-classes/
источник

A

Alex in Data Engineers
понял, просто нужно будет пометку соответствующею делать в метаданных об этом объекте. что он уехал в Glacier
источник

T

T in Data Engineers
Alex
понял, просто нужно будет пометку соответствующею делать в метаданных об этом объекте. что он уехал в Glacier
а где у вас метаданые? у  glue тоже есть ретеншен политики позволяющие удалять партиции уехавшие в гласир
источник

A

Alex in Data Engineers
в RDS for PostgreSQL
источник

A

Alex in Data Engineers
когда новый файл заливается на S3, создается запись о нем в Postgres. Спарк application затем из Postgres вычитывает инфу и грузит файлы с S3
источник

A

Alex in Data Engineers
вот судя по всему если объект будет уходить в Glacier, мне нужно будет в Postgres делать соответствующею пометку об этом, что бы  потом перед обработкой Спарком какой-то дополнительный процесс сначала такой файл извлек из Glacier назад в S3.
источник

T

T in Data Engineers
Alex
вот судя по всему если объект будет уходить в Glacier, мне нужно будет в Postgres делать соответствующею пометку об этом, что бы  потом перед обработкой Спарком какой-то дополнительный процесс сначала такой файл извлек из Glacier назад в S3.
А почему его не обработать спарком сразу? что бы он уже в гласир ушел готовым
источник

A

Alex in Data Engineers
да да, так и есть. Он обрабатывается сразу. Но у нас есть такое понятие как обработка по новой(rerun)
источник

A

Alex in Data Engineers
например аналитики формулы подкорректировали и просят перегнать весь масив данных по новой
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
например аналитики формулы подкорректировали и просят перегнать весь масив данных по новой
пусть аналитики посчитают, как им дешевле - держать все данные в стандарте или IA, или кидать в Glacier и оттуда поднимать, ждать, считать (эт все денег стоит), на то они и аналитики
источник

AZ

Anton Zadorozhniy in Data Engineers
в этом и удобство такой системы, можно каждому обновлению формулы противопоставить конкретную стоимость
источник

A

Alex in Data Engineers
Да, я направление понял куда копать! Спасибо большое!
источник

VK

Vladimir K. in Data Engineers
Всем привет! Вопрос по Data Vault 2.0.
Если в системе источнике у меня есть таблица в которой несколько внешних ключей, то для каждого внешнего ключа создаётся своя таблица связи или они все помещаются в одну таблицу связь?
источник

ПБ

Повелитель Бури... in Data Engineers
Типа таблица товар,магазин,поставщик, цена ?
источник

VK

Vladimir K. in Data Engineers
Например, есть таблица с информацией о покупателе, там есть поля по типу город проживания и пол. Они являются справочниками. В таблице покупателя сделаны ФК на эти справочники. В рамках data vault мы бьём это всё на 3 хаба (покупатель, города, пол). А таблиц линков мы создаём 2 или 1?
источник

ПБ

Повелитель Бури... in Data Engineers
Мне кажется пол это сателит?
источник

ПБ

Повелитель Бури... in Data Engineers
Хаб это большие бизнес сущности
источник