Телеграмм чат группы hadoopusers страница 4372

Мы сейчас таким занимаемся.
Увы, простого решения нет.
Если у вас все в 1й БД и не очень большое - SQL Flow (Gudusoft). Это самое простое что мы пробовали.

Lingage в Amundsen or Datahub - прикольные самоделки 🙂
Ковыряли амундсен, датахаб у нас в проде, но, пока без linage.
Но, само по себе с задачей не поможет. из коробки такое не завести.

источник

13:41пожаловаться #5

Dmitry Andreev in Data Engineers

В общем пока решили попробовать самим написать парсер SQL скриптов и прогнать результаты через какую-нибудь либу визуализации типа D3.js или аналоги. Но за наводки спасибо! :)

источник

13:44пожаловаться #6

Anton Zadorozhniy in Data Engineers

Amundsen и Datahub это каталоги для data discovery, а не для data governance, это разные задачи (хотя соприкасаются)

источник

13:48пожаловаться #7

Anton Zadorozhniy in Data Engineers

А зачем вас нужен такой граф, какие задачи вы хотите решать?

источник

13:48пожаловаться #8

Roman in Data Engineers

Есть простенький pylinage, для любителей самоделок. Но, рано или позно, это нужно будет добавить дата-каталог ( владение процедурами, алертинг, дата кволити) Все вместе это хорошо причиняет добро.
Но, вам, точно, виднее.

источник

13:49пожаловаться #9

Roman in Data Engineers

Ну, как-бы, уже нет.
"DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity."

Так, исторически, назвали функцию Амундсена.
Но, по факту, вокруг них строятся полноценные решения для computational data governance.

источник

13:52пожаловаться #10

Vladislav Stepanov in Data Engineers

Мы так и делали, только мы парсили репозиторий етл инструмента, результат загружали в neo4j, на выходе граф с составом источников по витрине или влияние витрины на другие загрузки

источник

13:56пожаловаться #11

Dmitry Andreev in Data Engineers

в связи с переездом на новую версию хадупа начали всплывать моменты, когда данные между средами разъезжаются. Т.к. есть витрины по 1000+ строк кода и с кучей зависимостей, разбор полётов усложняется тем, что пока раскопаешь всю цепочку пройдет куча времени. Если же будет тулза в которую вбли имя витрины, а она тебе построила полный граф зависимостей до сырья, то жить станет сильно проще :)

источник

13:57пожаловаться #12

Dmitry Andreev in Data Engineers

ну да, концепт +\- тот же

источник

13:58пожаловаться #13

Anton Zadorozhniy in Data Engineers

Да, я по факту перепутал датахаб с другим проектом. Они как раз от governance строятся и так себе умеют дата дискавери.

источник

14:00пожаловаться #14

Anton Zadorozhniy in Data Engineers

У вас получается чисто governance юзкейс, тогда вы все правильно делаете, самим это не так сложно написать

источник

14:02пожаловаться #15

Aleksey in Data Engineers

Вот собрал в статейку. Если будут идеи, что добавить\убавить - напишите пож-та. Ну и если вам она пригодиться, чтобы побеседовать с коллегами, которые отвестыенны за разработку источников, то используйте в своей работе.
https://lexaneon.medium.com/how-source-systems-developers-can-help-data-team-3326ce434037

Medium

How source systems developers can help Data team.

Finally, I’ve decided to gather some advice for developers who develop/design systems which later can be used as sources for Data…

источник

19:09пожаловаться #16

Ё in Data Engineers

Друзья, а как impala shell скрипт с кириллицей запустить, кто знает?

источник

19:09пожаловаться #17

Winner in Data Engineers

Всем привет! Подскажите пожалуйста,где можно найти database администраторов? Может чаты какие есть в телеге. Заранее благодарна.

источник