Мы сейчас таким занимаемся. Увы, простого решения нет. Если у вас все в 1й БД и не очень большое - SQL Flow (Gudusoft). Это самое простое что мы пробовали.
Lingage в Amundsen or Datahub - прикольные самоделки 🙂 Ковыряли амундсен, датахаб у нас в проде, но, пока без linage. Но, само по себе с задачей не поможет. из коробки такое не завести.
В общем пока решили попробовать самим написать парсер SQL скриптов и прогнать результаты через какую-нибудь либу визуализации типа D3.js или аналоги. Но за наводки спасибо! :)
Есть простенький pylinage, для любителей самоделок. Но, рано или позно, это нужно будет добавить дата-каталог ( владение процедурами, алертинг, дата кволити) Все вместе это хорошо причиняет добро. Но, вам, точно, виднее.
Ну, как-бы, уже нет. "DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity."
Так, исторически, назвали функцию Амундсена. Но, по факту, вокруг них строятся полноценные решения для computational data governance.
Мы так и делали, только мы парсили репозиторий етл инструмента, результат загружали в neo4j, на выходе граф с составом источников по витрине или влияние витрины на другие загрузки
в связи с переездом на новую версию хадупа начали всплывать моменты, когда данные между средами разъезжаются. Т.к. есть витрины по 1000+ строк кода и с кучей зависимостей, разбор полётов усложняется тем, что пока раскопаешь всю цепочку пройдет куча времени. Если же будет тулза в которую вбли имя витрины, а она тебе построила полный граф зависимостей до сырья, то жить станет сильно проще :)