Size: a a a

2020 December 09

АЖ

Андрей Жуков... in Data Engineers
Каеф
источник

ME

Max Efremov in Data Engineers
Rodion
Леплю инструмент для преобразования данных, сжимать не очень хочу, вертеть крутить скорее
Может проще руками? Как вам удобнее, так и нормализировать
источник

ME

Max Efremov in Data Engineers
А то получится каша от инструментов с неочевидными связями, далёкими от предметной области...
источник
2020 December 10

A

Alex in Data Engineers
Вот оно как, Михалыч, под каждую версию спарка нужен свой хадуп кластер
источник

KS

K S in Data Engineers
А есть какой-нибудь тул для определения functional dependency? Типа нажал кнопку, тулза провела анализ и сгенерила рекомендации типа вот эти поля функционально зависимы от этих и почему.
источник

KS

K S in Data Engineers
Я нашёл в интернете один, однако там ничего не понятно.
источник

R

Roman in Data Engineers
С использованием фаргейта  emr как бы станет serverless, верно, коллеги?)
источник

N

Nikolay in Data Engineers
Объясните ,а зачем нужны все эти Data Vault ? Почему просто не перекачать к себе данные из других систем(исходных ). В их же структуре . Если структура источников не подходит , то перекачивать в исходной ,и рядам делать ещё одну структуру . Зачем все эти Hub, Link
источник

NB

Nikita Bakanchev in Data Engineers
Ну ты описал разные слои
источник

N

Nikolay in Data Engineers
Nikita Bakanchev
Ну ты описал разные слои
а зачем какие-то другие, кроме этих 2х?
источник

VP

Vitaly Pismarev in Data Engineers
Nikita Bakanchev
Ну ты описал разные слои
Nikolay  задал очень правильный и интересный вопрос. Слой тот же, EDW.  И он может быть как в 3NF (привет Инмону), так и в 5/6NF (DV,Anchor). А может и отсутсвовать вовсе.  И на моём опыте использование DV сильно завышало time to market из за громоздких запросов (куча таблиц, куча джойнов, выше требования к железу) + более сложный ETL.
источник

NB

Nikita Bakanchev in Data Engineers
Ну Raw Data очень редко относят к EDW имхо
источник

VP

Vitaly Pismarev in Data Engineers
А, ну тогда это действительно другой вопрос )  Я прочитал это "и рядам делать ещё одну структуру" и понял так что всё таки сырьё трансформируем в какую-то форму
источник

AF

Asd Fgh in Data Engineers
Всем шалом, кто-то деплоил клаудеру в опеншифт?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
Объясните ,а зачем нужны все эти Data Vault ? Почему просто не перекачать к себе данные из других систем(исходных ). В их же структуре . Если структура источников не подходит , то перекачивать в исходной ,и рядам делать ещё одну структуру . Зачем все эти Hub, Link
все эти структуры и в целом DWH в самом начале решает три основные задачи:
1) консолидация данных, пример: мы можем в одном запросе соединить данные из HR и CRM систем
2) интеграция данных, пример: при соединении контрактов из CRM систем с сотрудниками из HR мы оперируем едиными ключами, и все расхождения (orphans) контролируемы
3) историзация, пример: если в CRM сейчас виден только активный менеджер клиента в хранилище мы можем получить всех предыдущих

иногда бывают ситуации когда эти три задачи не нужно решать, тогда можно обойтись обычными независимыми витринами
источник

N

Nikolay in Data Engineers
Nikita Bakanchev
Ну Raw Data очень редко относят к EDW имхо
а если RAW + широкие таблицы?
источник

VP

Vitaly Pismarev in Data Engineers
Nikolay
а если RAW + широкие таблицы?
Так это Кимбалл вроде как, вполне рабочее решение. Т.е. на твой вопрос ответа однозначного нет, где-то хорошо зайдёт Кимбалл, а где-то подход с EDW
источник

N

Nikolay in Data Engineers
Anton Zadorozhniy
все эти структуры и в целом DWH в самом начале решает три основные задачи:
1) консолидация данных, пример: мы можем в одном запросе соединить данные из HR и CRM систем
2) интеграция данных, пример: при соединении контрактов из CRM систем с сотрудниками из HR мы оперируем едиными ключами, и все расхождения (orphans) контролируемы
3) историзация, пример: если в CRM сейчас виден только активный менеджер клиента в хранилище мы можем получить всех предыдущих

иногда бывают ситуации когда эти три задачи не нужно решать, тогда можно обойтись обычными независимыми витринами
Так я могу и без DV получить. Выкачать все из oltp базы в базу для аналитики через CDC. Разве не так ?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
Так я могу и без DV получить. Выкачать все из oltp базы в базу для аналитики через CDC. Разве не так ?
можете, но каждое изменение источников может приводить к тому что ваши старые отчеты/витринные процессы будут ломаться
источник

AZ

Anton Zadorozhniy in Data Engineers
самый яркий пример: миграции или консолидации систем-источников
источник