Телеграмм чат группы hadoopusers страница 2028

дело не в размере (он как известно, не важен)), нормализованные модели нужны чтобы снизить боли и реворк при интеграции и историзации данных, в этом смысле решение зависит от того как много у вас разных источников, какая сложность интеграции, какие операционные требования на новые источники

источник

19:50пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

и, конечно, нормализация не бесплатная, вы заплатите за это производительностью процессов сборки ваших витрин

источник

19:52пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

(я внедрял отраслевые модели IBM, Teradata, а также строил хранилища по DV, и не смогу сформулировать для вас однозначного набора критериев когда вам нужно применять отраслевую модель или методологию нормализации)

источник

19:54пожаловаться #7

VS

Vladislav 👻 Shishkov in Data Engineers

Anton Zadorozhniy

и, конечно, нормализация не бесплатная, вы заплатите за это производительностью процессов сборки ваших витрин

Наоборот

источник

20:47пожаловаться #8

VS

Vladislav 👻 Shishkov in Data Engineers

Сбор витрин сократится, за счет уменьшение бизнес-логики, т.к. у вас данные нормализованы

источник

20:47пожаловаться #9

VS

Vladislav 👻 Shishkov in Data Engineers

Ну и гибкость

источник

20:48пожаловаться #10

R

Roman in Data Engineers

Спасибо за развёрнутые ответы.

источник

20:54пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

Vladislav 👻 Shishkov

Сбор витрин сократится, за счет уменьшение бизнес-логики, т.к. у вас данные нормализованы

это вы рассматриваете ситуацию когда каждая витрина делает тот же объем интеграции и историзации что и детальный слой, чаще всего витрины не делают такой объем работы, и я не раз видел ситуацию когда куча витрин специфичных на конкретной предметной области которая быстро строилась на простом дампе источника становится сильно медленнее на нормализованном детальном слое.. люди переходят обычно от независимых витрин к инмоновскому хранилищу прежде всего для повышения гибкости интеграции данных и максимально сохраняя аналитическую возможность, и переход к такой модели ведет к тому что старые витрины или остаются работать мимо детального слоя, или становятся медленнее (но зато сходятся в "единую версию правды")

источник

21:42пожаловаться #12

VS

Vladislav 👻 Shishkov in Data Engineers

Если вам достаточно построить витрину на одном источнике, то вам не нужно хранилище, в противном случае, нормализация сущностей до бизнес-логике выигрывает априори. Аналитику достаточно сделать два джойна, поставить условия, запилить оконку и вот у него уже анализ двух сущностей и их отношений

источник

21:46пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

но да, в идеальном мире если мы сразу строим инмоновское ХД - витрины просто делают срез и представление для предметной области уже полностью интегрированных и историзованых данных

источник

21:47пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Vladislav 👻 Shishkov

Если вам достаточно построить витрину на одном источнике, то вам не нужно хранилище, в противном случае, нормализация сущностей до бизнес-логике выигрывает априори. Аналитику достаточно сделать два джойна, поставить условия, запилить оконку и вот у него уже анализ двух сущностей и их отношений

классический пример: маркетологи считают клиентов по CRM данным, финансисты по GL, а CEO хочет одно число и предлагает сделать целостное ХД)

источник

21:48пожаловаться #15

VS

Vladislav 👻 Shishkov in Data Engineers

Это не проблема хранилища и его нормализация

источник

21:49пожаловаться #16

VS

Vladislav 👻 Shishkov in Data Engineers

Не надо из крайности в крайность

источник

21:49пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

это проблема интеграции, хранилища строятся чтобы решить три задачи: консолидация данных (все данные доступны из одного места), интеграция (данные связываются вместе) и историзация (можно понять какие данные когда были актуальны), и нормализация это как раз используется как способ интеграции (две разных таблицы договоров, мы вводим единую сущность договора и атрибуты договора в нормализованном виде заполняются в зависимости от источника)

источник

21:56пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

если что - я с вами, мне тоже больше импонируют инмоновские хранилища, но это точно не единственный способ который абсолютно все должны использовать для своих аналитических систем, есть другие способы решить указанные выше три задачи

источник

21:59пожаловаться #19

VS

Vladislav 👻 Shishkov in Data Engineers

Возможно, но я лично не видел такие хранилища... И я подразумеваю скорее гибрид кимбалла с инмоном 😉

источник

22:09пожаловаться #20