Size: a a a

Архитектура данных

2018 August 26

MV

Mitya Volodin in Архитектура данных
А какие данные?
источник

e

er@essbase.ru in Архитектура данных
для витрин
источник

MV

Mitya Volodin in Архитектура данных
Кто пользователи? Какие sla у хранилища в части доступности?
источник

e

er@essbase.ru in Архитектура данных
Mitya Volodin
А какие данные?
ERP производственные
—-
источник

e

er@essbase.ru in Архитектура данных
Mitya Volodin
А какие данные?
свалка различных интернет логов и прочего
источник

e

er@essbase.ru in Архитектура данных
Mitya Volodin
Кто пользователи? Какие sla у хранилища в части доступности?
ежедневная очетность - 8 часов ночью на обработку
источник

MV

Mitya Volodin in Архитектура данных
то есть есть maintainance окна? Когда хранилище можно опустить?
источник

e

er@essbase.ru in Архитектура данных
Mitya Volodin
то есть есть maintainance окна? Когда хранилище можно опустить?
ночью) и в выхи
источник

MV

Mitya Volodin in Архитектура данных
Окей. И вы не хотите платить ни за что, даже за поддержку community?
источник

MV

Mitya Volodin in Архитектура данных
В общем что касается структурированных данных, надо в первую очередь понять, что именно вам от хранилища нужно. Если это большая конкурентная нагрузка - это MPP, хотите "бесплатно" - Greenplum. Если важно скорее проще сопровождать и у вас частые update/delete операции - это OLTP, например - Postgres.
источник

e

er@essbase.ru in Архитектура данных
Mitya Volodin
Окей. И вы не хотите платить ни за что, даже за поддержку community?
эм..   в целом если все закроет один инструмент и это не будет Oracle , то можно и его купить )))
источник

RK

Roman Kolchin in Архитектура данных
er@essbase.ru
эм..   в целом если все закроет один инструмент и это не будет Oracle , то можно и его купить )))
QlikView?
источник

MV

Mitya Volodin in Архитектура данных
Далее надо определиться с ресурсами и масштабом. Если компания/бизнес - маленький и не очень разнообразный, если есть фокус на предметную область - можно использовать Кимбэловский подход с Data Modeling. Он очень простой для создания, сложен немного для сопровождения, но при наличии окон - это поправимо.
источник

e

er@essbase.ru in Архитектура данных
Roman Kolchin
QlikView?
это же витрина ?
источник

MV

Mitya Volodin in Архитектура данных
QlikView - это BI
источник

MV

Mitya Volodin in Архитектура данных
И он не бесплатный )
источник

RK

Roman Kolchin in Архитектура данных
QlikView это комбайн, в котором есть все — и хранилище (таблицы в виде файлов) и ETL (скрипт) и витрины (те же файлы базы, но уже в памяти) и визуализация (ну это очевидно, это ж BI).
источник

e

er@essbase.ru in Архитектура данных
Roman Kolchin
QlikView это комбайн, в котором есть все — и хранилище (таблицы в виде файлов) и ETL (скрипт) и витрины (те же файлы базы, но уже в памяти) и визуализация (ну это очевидно, это ж BI).
а какой у него ценник ?
источник

MV

Mitya Volodin in Архитектура данных
Mitya Volodin
Далее надо определиться с ресурсами и масштабом. Если компания/бизнес - маленький и не очень разнообразный, если есть фокус на предметную область - можно использовать Кимбэловский подход с Data Modeling. Он очень простой для создания, сложен немного для сопровождения, но при наличии окон - это поправимо.
Если бизнес большой, много связей между разными по сути направлениями - нужен хороший уровень абстракции и нормализация. Можно использовать Data Vault или его упрощённые версии с эвристиками для конкретного бизнеса.

Можно Anchor Modeling - тут вообще шикарно в плане методологии, бери и делай. Но нужны прокачанные ETL инженеры и нельзя будет давать пользователям интерфейс к детальному слою - очень сложно писать SQL.

И для этого требуется MPP база
источник

MV

Mitya Volodin in Архитектура данных
Я бы Qlik не брал. Не хочу холиварить, это моё субъективное мнение, но для быстрых изменений он не подходит. Это почти классический BI (не совсем, конечно), кодить там надо на своём языке все отчёты. Если их надо поддерживать и менять - вы сильно охренеете со временем этим заниматься.

Тем более best practice, всё-таки, всё что касается данных и их трансформации - вешать на хранилище. Оно чаще мощней, чем сервак для клика
источник