Size: a a a

2020 October 13

SS

Sergey Sheremeta in Data Engineers
у меня тоже вопрос к настоящим дата-инженерам в чате:
а как вы увязываете разные git-репы своих пайплайнов?
например, у меня есть пайп, который задействует NiFi + Spark Streamig или Airflow + Spark репозитории.
источник

DZ

Dmitry Zuev in Data Engineers
Монорепа
источник

SS

Sergey Sheremeta in Data Engineers
Dmitry Zuev
Монорепа
ты хитрый
источник

DZ

Dmitry Zuev in Data Engineers
Опыт
источник

SS

Sergey Sheremeta in Data Engineers
ну ладно, буду склонять команду к групповушке!
спасибо
источник

SS

Sergey Sheremeta in Data Engineers
а чо с Худи/Айсбергом? плохо набросил? давайте посремся
источник

AN

Andrew Nasonov in Data Engineers
Если про репозитории, вопрос попримитивнее,подскажите, пожалуйста. Допустим, я написал скала-класс, который берет конфиги, и делает определенную операцию над таблицами с произвольных  источников и пишет в табличку в хайв, например. И теперь этот класс мне нужно заюзать в куче разных проектов. Меняться будут только конфиги. Как это лучше задеплоить в тот же кубер?
источник

DZ

Dmitry Zuev in Data Engineers
Ну либо через пакет в нексусе, либо через монорепу/сабмодуль
источник

SS

Sergey Sheremeta in Data Engineers
и сразу вопрос - где конфиги хранить?
источник

DZ

Dmitry Zuev in Data Engineers
В репе
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
а чо с Худи/Айсбергом? плохо набросил? давайте посремся
так себе, без фактуры
источник

DZ

Dmitry Zuev in Data Engineers
Dmitry Zuev
В репе
источник

SS

Sergey Sheremeta in Data Engineers
я только Худи щупаю, вот и хочу понять чего такого крутого в Айсберге
источник

SS

Sergey Sheremeta in Data Engineers
однозначно Hoodie лучше DeltaLake OSS - как минимум из-за Merge-On-Read таблиц и поддержки глобальных индексов в Hbase/Cassandra (связь между первичным ключем данных и каталога партиции/субпартиции/субсубпартиции/бакета)
источник

AZ

Anton Zadorozhniy in Data Engineers
не высокая планка, Delta OSS это вообще диверсия (они почему-то стесняются написать что это просто стаб для локального тестирования)
источник

UD

Uncel Duk in Data Engineers
Покормлю
источник

UD

Uncel Duk in Data Engineers
А кто-то имел опыт поддержки своего форка хайва например
источник

UD

Uncel Duk in Data Engineers
За две недели очень поел говна с ним и тезом, баги в джире есть 3+ года, на некоторые дажи патчи есть
источник

AZ

Anton Zadorozhniy in Data Engineers
Uncel Duk
А кто-то имел опыт поддержки своего форка хайва например
у нас даж свой дистрибутив целый был
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
у нас даж свой дистрибутив целый был
А какие затраты? В людях например
источник