Телеграмм чат группы hadoopusers страница 2625

если вы обращаетесь к данным в ваших регулярных процессах то вам Glacier не нужен, это для архивов и бэкапов

10:45пожаловаться #1

вот читаю про Glacier, что на S3 можно автоматически настроить архивирование в Glacier из S3 по политикам. Я смогу как-то програмно отловить событие архивирования(когда наступит его время).. там к примеру через AWS Lambda?

10:46пожаловаться #2

через SNS

10:47пожаловаться #3

Amazon Web Services, Inc.

Glacier это еще один Storage Class (точнее их два вида), мб вам промежуточные подойдут https://aws.amazon.com/s3/storage-classes/

Object Storage Classes – Amazon S3

10:47пожаловаться #4

понял, просто нужно будет пометку соответствующею делать в метаданных об этом объекте. что он уехал в Glacier

10:48пожаловаться #5

T in Data Engineers

Alex

понял, просто нужно будет пометку соответствующею делать в метаданных об этом объекте. что он уехал в Glacier

а где у вас метаданые? у glue тоже есть ретеншен политики позволяющие удалять партиции уехавшие в гласир

10:50пожаловаться #6

в RDS for PostgreSQL

10:50пожаловаться #7

когда новый файл заливается на S3, создается запись о нем в Postgres. Спарк application затем из Postgres вычитывает инфу и грузит файлы с S3

10:52пожаловаться #8

вот судя по всему если объект будет уходить в Glacier, мне нужно будет в Postgres делать соответствующею пометку об этом, что бы потом перед обработкой Спарком какой-то дополнительный процесс сначала такой файл извлек из Glacier назад в S3.

10:56пожаловаться #9

T in Data Engineers

Alex

А почему его не обработать спарком сразу? что бы он уже в гласир ушел готовым

10:57пожаловаться #10

да да, так и есть. Он обрабатывается сразу. Но у нас есть такое понятие как обработка по новой(rerun)

10:58пожаловаться #11

например аналитики формулы подкорректировали и просят перегнать весь масив данных по новой

10:58пожаловаться #12

Alex

например аналитики формулы подкорректировали и просят перегнать весь масив данных по новой

пусть аналитики посчитают, как им дешевле - держать все данные в стандарте или IA, или кидать в Glacier и оттуда поднимать, ждать, считать (эт все денег стоит), на то они и аналитики

11:03пожаловаться #13

в этом и удобство такой системы, можно каждому обновлению формулы противопоставить конкретную стоимость

11:03пожаловаться #14

Да, я направление понял куда копать! Спасибо большое!

11:04пожаловаться #15

Vladimir K. in Data Engineers

Всем привет! Вопрос по Data Vault 2.0.
Если в системе источнике у меня есть таблица в которой несколько внешних ключей, то для каждого внешнего ключа создаётся своя таблица связи или они все помещаются в одну таблицу связь?

Повелитель Бури... in Data Engineers

11:13пожаловаться #16

ПБ

Типа таблица товар,магазин,поставщик, цена ?

11:37пожаловаться #17

Vladimir K. in Data Engineers

Например, есть таблица с информацией о покупателе, там есть поля по типу город проживания и пол. Они являются справочниками. В таблице покупателя сделаны ФК на эти справочники. В рамках data vault мы бьём это всё на 3 хаба (покупатель, города, пол). А таблиц линков мы создаём 2 или 1?

Повелитель Бури... in Data Engineers

11:40пожаловаться #18

ПБ

Мне кажется пол это сателит?

Повелитель Бури... in Data Engineers

11:42пожаловаться #19

ПБ

Хаб это большие бизнес сущности