Size: a a a

2020 December 23

e

er@essbase.ru in Data Engineers
Вот сейчас стало не понятно ))  в моём мире координат  -  оркестрация и запускает обработчики по расписанию ? ) Или для этого есть другое определение?)
источник

A

Alex in Data Engineers
У вас же первый вопрос был про объединение исходного кода и оркестрацию
источник

e

er@essbase.ru in Data Engineers
Alex
У вас же первый вопрос был про объединение исходного кода и оркестрацию
Да. Давайте взглянем на Informatica . Имеем и sql и движок по его выполнению.
источник

АЖ

Андрей Жуков... in Data Engineers
источник

A

Alex in Data Engineers
Можно ещё пентаху вспомнить....
источник

АЖ

Андрей Жуков... in Data Engineers
кстати, интересно, информатика компилит скалу или просто скриптом фигарит
источник

e

er@essbase.ru in Data Engineers
Alex
Можно ещё пентаху вспомнить....
Скажите что вызывает такие чувства боли в моем вопросе ? ))  Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?
источник

АЖ

Андрей Жуков... in Data Engineers
от “такого” - это какого?
источник

АЖ

Андрей Жуков... in Data Engineers
хотите квадратики двигать - ну есть же информатика
источник

АЖ

Андрей Жуков... in Data Engineers
хотите полный контроль над пайплайном - добро пожаловать в исходный код эйрплова
источник

АЖ

Андрей Жуков... in Data Engineers
можно хакнуть оператор и билдить жарники в рантайме
источник

АЖ

Андрей Жуков... in Data Engineers
(я, правда, до сих пор не понимаю, нафига)
источник

e

er@essbase.ru in Data Engineers
Андрей Жуков
(я, правда, до сих пор не понимаю, нафига)
Ок
источник

АЖ

Андрей Жуков... in Data Engineers
хочется все в рантайме - ну можно на писпарке тогда писать
источник

A

Alex in Data Engineers
er@essbase.ru
Скажите что вызывает такие чувства боли в моем вопросе ? ))  Может есть грабли которые не замечаю ? Почему отказываются от такого подхода?
Ну потому что информатика с одной стороны это etl (не работал лично, но то что видел больше всего на него похоже)

А airflow + кастомного говна вагон это более generic решение

С одной стороны и протестировать эти квадратики проще независимо

С другой сама оркестрация это отдельная боль для больших датапайплайнов

Как вспомню как это выглядело в пентахе до сих пор вздрагиваю
источник

A

Alex in Data Engineers
А уж вопросы версионирования как-то даже подымать не хочется
источник

e

er@essbase.ru in Data Engineers
Андрей Жуков
хочется все в рантайме - ну можно на писпарке тогда писать
В AirFlow pySpark лежит прям кодом ?)
источник

АЖ

Андрей Жуков... in Data Engineers
er@essbase.ru
В AirFlow pySpark лежит прям кодом ?)
пейтон и пейтон
источник

SS

Sergey Sheremeta in Data Engineers
делали так:
- в Nexus публиковали жарники после прохождения всех тестов в рамках CI/CD
- в Airflow использовали LivyBatchOperator, которому передавали через переменную Airflow путь до актуального джарника (Livy уже сам потом вытягивал джарник при запуске джобы)

объединить репу со Scala/Spark-кодом и репу с ДАГами Airflow не успел
источник

SS

Sergey Shushkov in Data Engineers
er@essbase.ru
Вот сейчас стало не понятно ))  в моём мире координат  -  оркестрация и запускает обработчики по расписанию ? ) Или для этого есть другое определение?)
Ключевое слово было внутри системы, а не по расписанию )
источник