у меня тоже вопрос к настоящим дата-инженерам в чате: а как вы увязываете разные git-репы своих пайплайнов? например, у меня есть пайп, который задействует NiFi + Spark Streamig или Airflow + Spark репозитории.
Если про репозитории, вопрос попримитивнее,подскажите, пожалуйста. Допустим, я написал скала-класс, который берет конфиги, и делает определенную операцию над таблицами с произвольных источников и пишет в табличку в хайв, например. И теперь этот класс мне нужно заюзать в куче разных проектов. Меняться будут только конфиги. Как это лучше задеплоить в тот же кубер?
однозначно Hoodie лучше DeltaLake OSS - как минимум из-за Merge-On-Read таблиц и поддержки глобальных индексов в Hbase/Cassandra (связь между первичным ключем данных и каталога партиции/субпартиции/субсубпартиции/бакета)