Size: a a a

2021 October 16

ЕГ

Евгений Глотов... in Data Engineers
Не поедет, надо менять физическое устройство, в данном случае тип колонки в самом паркете
источник

GB

Gennadiy Bbb in Data Engineers
не подскажете как?
источник

ЕГ

Евгений Глотов... in Data Engineers
☝️
источник

GB

Gennadiy Bbb in Data Engineers
т.е. create table as select не избежен?
источник

ЕГ

Евгений Глотов... in Data Engineers
Есть днищенский способ - повесить вьюху с преобразованием
источник

GB

Gennadiy Bbb in Data Engineers
в том-то и дело, нужно на целевой сделать. А так бы да, вью можно было
источник

ЕГ

Евгений Глотов... in Data Engineers
Но если новые данные приходят в новом формате, тогда уже две вьюхи - на старые данные с преобразованием и на новые без
источник

ЕГ

Евгений Глотов... in Data Engineers
Тогда только копия с изменением типа
источник

ЕГ

Евгений Глотов... in Data Engineers
А сколько данных?
источник

GB

Gennadiy Bbb in Data Engineers
да, придется только так тогда. Спасибо!
источник

Е

Евгений in Data Engineers
решил - помогло прописать скачивание и распаковку спарка в Dockerfile, а не закидывать его в образ из хоста. Но очень странно, что bin не копировалась
источник
2021 October 17

DA

Dmitry Andreev in Data Engineers
Ребятушки, всем привет! Ситуация следующая. Есть куча файлов с SQL скриптами - DDL таблиц сырья и витрин + DML наполенения всего этого добра. Задача - построить графы зависимостей витрин от других витрин и сырья. В идеале на выходе надо иметь UI с полюшком, в которое вводишь имя витрины - он тебе строит граф со всеми зависимостями. Вопрос. Существует ли какое-то готовое решение для этих целей (хотя бы построение графов на основе файлов в файловой системе) или же надо самому писать?
источник

A

Aleksey in Data Engineers
Коммерческие продукты точно имеют такой модуль парсинга (вроде у collibra есть).
Также есть открытые библиотеки, которые помогают парсить SQL.
В целом вся эта тема называется lineage и он как правило доступен в Data Catalog’ах (есть куча открытых: DataHub, Amundsen, Apache Atlas, etc, а также проприетарных: Alation, Collibra, etc)
источник

DA

Dmitry Andreev in Data Engineers
Оооок, спасибо за наводку :)
источник

Д

Дмитрий in Data Engineers
Если все sql - можно и на Dbt переехать. Там тоже lineage есть из коробки.
https://github.com/dbt-labs/dbt-core

Предложенные выше варианты Data catalog ов - тоже вариант, но это больше для крупных корпоративных Data platform
источник

DA

Dmitry Andreev in Data Engineers
Большая часть витрин (во всяком случае в моей команде) наполняется через airflow hiveoperator, но в целом данные так же льются NiFi процессами и spark’ом, так что боюсь dbt не вариант. Особенно с формулировкой «можно переехать» :) но все равно спасибо
источник

Д

Дмитрий in Data Engineers
Понял, да - не вариант) тогда важно обращать внимание на интеграции из коробки - к примеру у Atlas а точно есть интеграции со всем стеком описанным - hive, nifi, airflow (со спарком там тоже есть, но она не совсем подходит под человекочитаемый Data lineage) .
У остальных что то похожее тоже есть (datahub/amundsen), но в живую не проверял
источник

Д

Дмитрий in Data Engineers
А и ещё Marques есть - он попроще, но то что нужно там есть.
Вот сравнения https://habr.com/ru/amp/post/551092/
https://link.medium.com/mTHvbJouqkb
источник

A

Alexander in Data Engineers
И еще из платного https://getmanta.com/
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Атлас какашка
источник