Size: a a a

2021 September 23

AZ

Anton Zadorozhniy in Data Engineers
А вы можете ловить код ошибок грузилки? Или она возвращает 0 даже если недогрузила?
источник

АБ

Артемий Богданов... in Data Engineers
Всем привет! Есть у кого хороший гайд по прикручиванию UDF на скале к pyspark?
источник

Н

Никита in Data Engineers
Да у меня airflow и sqoop.
Хост поменялся значит все витрины сегодня не построятся, потому-что ошибка в самом начале DAG'а.
Я просто хотел узнать, как в ентерпрайзах или где-нибудь еще борятся с таким поведением
источник

RI

Rustam Iksanov in Data Engineers
тебе нужно видимо свое ядро делать
источник

RI

Rustam Iksanov in Data Engineers
и туда просто сохраняешь свой артефакт
источник

RI

Rustam Iksanov in Data Engineers
только писульками и почтами, имхо
источник

I

Igar in Data Engineers
это никак не победить, особенно в крупных энтерпрайзах, где так много всего, что про отдел DWH могут и не знать.
Проверять на своей стороне, пиздить тех, кто меняет DNS
источник

R

Roman in Data Engineers
Ногами
источник

I

Igar in Data Engineers
Если в продукте случается жопа и SRE ночью чинят серваки, то проблемы dwh - это послденее, о чем они будут думать. Поэтому нужно обмазываться проверками на своей стороне
источник

R

Roman in Data Engineers
Коллеги, кто постарше, подскажите, пожалуйста, термин UDTF является стандартом в SQL?
Просто для меня это некий стандарт, так как видел что именно так называются семейство функций, которые увеличивают количество строк. Видел это я в нескольких бд/движках. Но поискав стандарт ли это, не нашел пруфов.

А к чему вопрос? К тому что документация клика достаточно слабая иногда. И они udtf функцию описали так:
"Это совсем необычная функция." При этом ни слова про UDTF, вот мне и интересно стало, может быть это я ошибаюсь и нет такого стандарта в именовании такого семейства функций
источник

ЕГ

Евгений Глотов... in Data Engineers
По идее это функция, которая принимает на вход таблицу и возвращает таблицу, а что посередине - решает юзер
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну тут вы можете поймать алертингом ошибку, а делать что с ней решать уже политически, и я видел варианты вплоть до звонков CIO от смены
источник

AZ

Anton Zadorozhniy in Data Engineers
Чей bottom line больше всех страдает от сбоя - тот пусть и бегает с эскалациями
источник

Н

Никита in Data Engineers
да тоже к этому выводу пришел, что с алертами нужно разбираться
спасибо всем
источник

AZ

Anton Zadorozhniy in Data Engineers
В качестве early detection механизма попробуйте договорится о каких-то heartbeat запросах к источникам (обычно к data dictionary), такой Pingdom на уровне источников, но это все полумеры
источник

I

Igar in Data Engineers
если базу не тушат, то не поможет, да
источник

TG

Tagir Gumerov in Data Engineers
У вас между строк проскальзывает, что в первую очередь вас волнует изменение хостов бд, это так?
источник

TG

Tagir Gumerov in Data Engineers
Просто если бОльшая часть проблем это именно хост - попросите опсов сделать для бд прокси, если ещё нет
источник

АБ

Артемий Богданов... in Data Engineers
прикрутил, собрал джарник, в спарк сабмит указать --jars path и в коде spark.udf.registerJavaFunction(название_пакета+класса, спарковский_тип)
источник

AZ

Anton Zadorozhniy in Data Engineers
Да, это такая борьба добра с легаси, чтобы сделать нормально нужна политическая воля
источник