Телеграмм чат группы hadoopusers страница 4366

решил - помогло прописать скачивание и распаковку спарка в Dockerfile, а не закидывать его в образ из хоста. Но очень странно, что bin не копировалась

источник

23:58пожаловаться #11

2021 October 17

Dmitry Andreev in Data Engineers

Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL скриптами - DDL таблиц сырья и витрин + DML наполенения всего этого добра. Задача - построить графы зависимостей витрин от других витрин и сырья. В идеале на выходе надо иметь UI с полюшком, в которое вводишь имя витрины - он тебе строит граф со всеми зависимостями. Вопрос. Существует ли какое-то готовое решение для этих целей (хотя бы построение графов на основе файлов в файловой системе) или же надо самому писать?

источник

09:23пожаловаться #12

Aleksey in Data Engineers

Коммерческие продукты точно имеют такой модуль парсинга (вроде у collibra есть).
Также есть открытые библиотеки, которые помогают парсить SQL.
В целом вся эта тема называется lineage и он как правило доступен в Data Catalog’ах (есть куча открытых: DataHub, Amundsen, Apache Atlas, etc, а также проприетарных: Alation, Collibra, etc)

источник

09:29пожаловаться #13

Dmitry Andreev in Data Engineers

Оооок, спасибо за наводку :)

источник

09:33пожаловаться #14

Дмитрий in Data Engineers

Если все sql - можно и на Dbt переехать. Там тоже lineage есть из коробки.
https://github.com/dbt-labs/dbt-core

Предложенные выше варианты Data catalog ов - тоже вариант, но это больше для крупных корпоративных Data platform

GitHub

GitHub - dbt-labs/dbt-core: dbt enables data analysts and engineers to transform their data using the same practices that software engineers use to build applications.

dbt enables data analysts and engineers to transform their data using the same practices that software engineers use to build applications. - GitHub - dbt-labs/dbt-core: dbt enables data analysts a...

источник

10:14пожаловаться #15

Dmitry Andreev in Data Engineers

Большая часть витрин (во всяком случае в моей команде) наполняется через airflow hiveoperator, но в целом данные так же льются NiFi процессами и spark’ом, так что боюсь dbt не вариант. Особенно с формулировкой «можно переехать» :) но все равно спасибо

источник

10:31пожаловаться #16

Дмитрий in Data Engineers

Понял, да - не вариант) тогда важно обращать внимание на интеграции из коробки - к примеру у Atlas а точно есть интеграции со всем стеком описанным - hive, nifi, airflow (со спарком там тоже есть, но она не совсем подходит под человекочитаемый Data lineage) .
У остальных что то похожее тоже есть (datahub/amundsen), но в живую не проверял

источник

13:40пожаловаться #17

Дмитрий in Data Engineers

А и ещё Marques есть - он попроще, но то что нужно там есть.
Вот сравнения https://habr.com/ru/amp/post/551092/
https://link.medium.com/mTHvbJouqkb

Habr

Как мы выбирали Data Catalog, но в итоге оставили все как есть

Меня зовут Никита Василюк, я инженер по работе с данными в департаменте данных и аналитики Lamoda. Я и моя команда занимаемся всем, что связано с распределенной системой хранения и обработки данных....