Size: a a a

2021 October 18

ЕГ

Евгений Глотов... in Data Engineers
Тупо папки с датами смувить в папки с месяцем
источник

ЕГ

Евгений Глотов... in Data Engineers
Будет двойное партицирование месяц-день
источник

РП

Роман Пашкевич... in Data Engineers
Это да,  из меньшего сделать большее, это понятно и логично. Просто все в одно место сложить.
источник

РП

Роман Пашкевич... in Data Engineers
А в обратную надо вычитывать данные и разбивать. Под это файловая система не заточена.
источник

R

Roman in Data Engineers
Мы сейчас таким занимаемся.
Увы, простого решения нет.
Если у вас все в 1й БД и не очень большое - SQL Flow (Gudusoft). Это самое простое что мы пробовали.

Lingage в Amundsen or Datahub -  прикольные самоделки 🙂
Ковыряли амундсен, датахаб у нас в проде, но, пока без linage.
Но, само по себе с задачей не поможет. из коробки такое не завести.
источник

DA

Dmitry Andreev in Data Engineers
В общем пока решили попробовать самим написать парсер SQL скриптов и прогнать результаты через какую-нибудь либу визуализации типа D3.js или аналоги. Но за наводки спасибо! :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Amundsen и Datahub это каталоги для data discovery, а не для data governance, это разные задачи (хотя соприкасаются)
источник

AZ

Anton Zadorozhniy in Data Engineers
А зачем вас нужен такой граф, какие задачи вы хотите решать?
источник

R

Roman in Data Engineers
Есть простенький pylinage, для любителей самоделок. Но, рано или позно, это нужно будет добавить дата-каталог ( владение процедурами, алертинг, дата кволити) Все вместе это хорошо причиняет добро.
Но, вам, точно, виднее.
источник

R

Roman in Data Engineers
Ну, как-бы, уже нет.
"DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity."

Так, исторически, назвали функцию Амундсена.
Но, по факту, вокруг них строятся полноценные решения для computational data governance.
источник

V

Vladislav Stepanov in Data Engineers
Мы так и делали, только мы парсили репозиторий етл инструмента, результат загружали в neo4j, на выходе граф с составом источников по витрине или влияние витрины на другие загрузки
источник

DA

Dmitry Andreev in Data Engineers
в связи с переездом на новую версию хадупа начали всплывать моменты, когда данные между средами разъезжаются. Т.к. есть витрины  по 1000+ строк кода и с кучей зависимостей, разбор полётов усложняется тем, что пока раскопаешь всю цепочку пройдет куча времени. Если же будет тулза в которую вбли имя витрины, а она тебе построила полный граф зависимостей до сырья, то жить станет сильно проще :)
источник

DA

Dmitry Andreev in Data Engineers
ну да, концепт +\- тот же
источник

AZ

Anton Zadorozhniy in Data Engineers
Да, я по факту перепутал датахаб с другим проектом. Они как раз от governance строятся и так себе умеют дата дискавери.
источник

AZ

Anton Zadorozhniy in Data Engineers
У вас получается чисто governance юзкейс, тогда вы все правильно делаете, самим это не так сложно написать
источник

A

Aleksey in Data Engineers
Вот собрал в статейку. Если будут идеи, что добавить\убавить - напишите пож-та. Ну и если вам она пригодиться, чтобы побеседовать с коллегами, которые отвестыенны за разработку источников, то используйте в своей работе.
https://lexaneon.medium.com/how-source-systems-developers-can-help-data-team-3326ce434037
источник

Ё

Ё in Data Engineers
Друзья, а как impala shell скрипт с кириллицей запустить, кто знает?
источник

W

Winner in Data Engineers
Всем привет! Подскажите пожалуйста,где можно найти database администраторов? Может чаты какие есть в телеге. Заранее благодарна.
источник

AE

Alexey Evdokimov in Data Engineers
сорян, но ваш английский невозможно читать :(
источник

A

Aleksey in Data Engineers
👍
источник