Size: a a a

2020 September 25

ПФ

Паша Финкельштейн... in Data Engineers
Renarde
правда с дата инженерингом мы натолкнулись на логическую проблему.
Вот допустим у нас есть батч-джоб который бегает по ночам, джоб начинается в 3 ночи, SLA на доставку данных - 6 утра. Во сколько нужно алертить инженера, если джоб работает, но не заканчивается к 6 утра? А главное - какой смысл такого алерта, если он прилетает в 4 утра - за два часа переподнять джоб?
Мы в таких случаях просто писали на почту. Ну потому что уже явно не успеешь решить в sla, будешь решать днём
источник

AS

Andrey Smirnov in Data Engineers
Renarde
правда с дата инженерингом мы натолкнулись на логическую проблему.
Вот допустим у нас есть батч-джоб который бегает по ночам, джоб начинается в 3 ночи, SLA на доставку данных - 6 утра. Во сколько нужно алертить инженера, если джоб работает, но не заканчивается к 6 утра? А главное - какой смысл такого алерта, если он прилетает в 4 утра - за два часа переподнять джоб?
разбивать на подзадачи и их мониторить?
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
разбивать на подзадачи и их мониторить?
Часто один большой запрос быстрее отработает чем последовательность мелких (а если параллель - это ещё сложность оркестрации)
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
Часто один большой запрос быстрее отработает чем последовательность мелких (а если параллель - это ещё сложность оркестрации)
ну да, но зато если что-то пошло не так, ты об этом раньше узнаешь, tradeoff
источник

E

El-Yaz in Data Engineers
Anton Zadorozhniy
Часто один большой запрос быстрее отработает чем последовательность мелких (а если параллель - это ещё сложность оркестрации)
Дебажить проще, покрывать тестами проще
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
ну да, но зато если что-то пошло не так, ты об этом раньше узнаешь, tradeoff
Почему, план же видно, метрики по шагам, можно понять что не так раньше
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
Почему, план же видно, метрики по шагам, можно понять что не так раньше
это если все более-менее равномерно, а если то густо-то пусто сложно будет метрики по шагам выставить (например появился skewed), задача на 98% выполнена, а оставшиеся 2% будут идти как пройденные 98%
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
это если все более-менее равномерно, а если то густо-то пусто сложно будет метрики по шагам выставить (например появился skewed), задача на 98% выполнена, а оставшиеся 2% будут идти как пройденные 98%
Это справедливо и для мелких джобов, а рекавери чаще всего - начать все сначала
источник

AZ

Anton Zadorozhniy in Data Engineers
Другое дело если оптимизатор так себе и квас нет доступа к плану онлайн
источник

AZ

Anton Zadorozhniy in Data Engineers
El-Yaz
Дебажить проще, покрывать тестами проще
Смотря какой подход, если запросы пишутся руками - то удобнее держать мелкие джобы; если ДСЛ или кодогенератор из метаданных то скорее всего есть тесты генератора, дсл и уже е2е для самих джобов
источник

PK

Pavel Klemenkov in Data Engineers
Переслано от Pavel Klemenkov
источник

GP

Grigory Pomadchin in Data Engineers
‼️Самое важное в Data Engineers Group‼️

🔹 Moscow Spark #10 быть (в онлайне)! https://moscowspark.timepad.ru/event/1440202/ @pklemenkov для связи
🔹 DE or DIE #4  https://t.me/hadoopusers/65923
🔹 SmartData 2020 CFP https://smartdataconf.ru/callforpapers/ cc @asm0dey
источник

ЕГ

Евгений Глотов... in Data Engineers
Alexander Gorokhov
Просто хочется что-то лучше чем имейлы которые будут спамить инбокс и слак канал который все замьютят. Что-то с удобной настройкой получателей, чтобы можно было видеть предыдущие похожие алерты, какие то теги и всякие графики появления ивента по времени
Чтобы присылать сообщения тому, кому они реально важны, нужно организовать сбор метаданных об использовании тех или иных таблиц/папок с данными, тогда можно будет кинуть алерт пользователю данных, что его процесс завтра не посчитается, например
источник

AV

Alexandr Vladimirovi... in Data Engineers
Всем привет, подскажите CDH с версии 6.3.3 стала полностью коммерческой? А то на сайте я так понимаю без подписки ее скачать нельзя
Что сейчас есть из свободно распространяемых сборок Hadoop кроме ванили?
источник

N

Nikita Blagodarnyy in Data Engineers
Alexandr Vladimirovich
Всем привет, подскажите CDH с версии 6.3.3 стала полностью коммерческой? А то на сайте я так понимаю без подписки ее скачать нельзя
Что сейчас есть из свободно распространяемых сборок Hadoop кроме ванили?
аренадата
источник

AV

Alexandr Vladimirovi... in Data Engineers
Nikita Blagodarnyy
аренадата
а в чем их сборка отличается от ванили? Они там делают свои фиксы различных багов?
источник

N

Nikita Blagodarnyy in Data Engineers
хдп можно самому собрать из исходников вроде. бинарей нету.
источник

AV

Alexandr Vladimirovi... in Data Engineers
Nikita Blagodarnyy
хдп можно самому собрать из исходников вроде. бинарей нету.
имеете ввиду отсюда? https://github.com/cloudera
источник

N

Nikita Blagodarnyy in Data Engineers
Alexandr Vladimirovich
а в чем их сборка отличается от ванили? Они там делают свои фиксы различных багов?
Тем, что это сборка. Вы же не можете пойти скачать Apache Data Platform 2.7.3.
источник

E

Evgeny in Data Engineers
аренадата собирает bigtop
источник