Size: a a a

2020 September 22

OA

Oleksandr Averchenko in Data Engineers
источник

K

KrivdaTheTriewe in Data Engineers
Oleksandr Averchenko
Мониторят качество данных в этом вашем тырпрайзе.
Смотрят откуда лезет мусор. Майнят мусор на инсайты.
Обмазываются мусором. Реконсилируют мусор. Чтобы поддерживать правильный уровень сигнал шум. Фиксят руткозы.
Нужны собственно там где ошибка будет стоит денег.
Это куда
источник
2020 September 23

K

Kirill in Data Engineers
Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?
источник

AG

Alexander Gorokhov in Data Engineers
Kirill
Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?
Фигачь python udf!
источник

AZ

Anton Zadorozhniy in Data Engineers
Kirill
Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?
а нельзя просто спарк натравить на те же источники что престо?
источник

HA

Hasan Al-Ammori in Data Engineers
Kirill
Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?
Presto откуда данные берет? Почему бы Spark не брать из этого же источника?
источник

K

Kirill in Data Engineers
К сожалению интеграционная шина это presto, напрямую до данных доступа нет
источник

K

Kirill in Data Engineers
Alexander Gorokhov
Фигачь python udf!
У нас скала, как udf поможет?
источник

AK

Alex Krash in Data Engineers
Kirill
К сожалению интеграционная шина это presto, напрямую до данных доступа нет
у вас идёт поток вида: "Spark+jdbc -> Presto -> source". Тут bottleneck не обязательно на грани Spark<->Presto. Вы перекачиваете огромный датасет через Presto?
источник

AK

Alex Krash in Data Engineers
Presto это же про "большой входной датасет -> маленькая свёртка".
источник

K

Kirill in Data Engineers
Alex Krash
у вас идёт поток вида: "Spark+jdbc -> Presto -> source". Тут bottleneck не обязательно на грани Spark<->Presto. Вы перекачиваете огромный датасет через Presto?
Да, понимаю что проблема может быть не в presto. И да, датасет не маленький
источник

AZ

Anton Zadorozhniy in Data Engineers
Kirill
К сожалению интеграционная шина это presto, напрямую до данных доступа нет
наверняка такая архитектура сделана для какой-нибудь особенно хорошей безопасности и управляемости, так что быстро работать точно не будет; постарайтесь в своей логике пушить как можно больше логики внутрь престо, а дальше только плакать с numpartitions/partitioncolumn/lowerbound/upperbound... и перепробег на престо будет огромный
источник

AZ

Anton Zadorozhniy in Data Engineers
для локальной отладки попробуйте сделать тестовые джобы из спарка в сторону какого-нибудь маленького постгре; обратите внимание какая колонка у вас partitioncolumn, это должна колонка поддерживающая between (числа, даты, таймстемпы) и с хорошей селективностью, чтобы не создавать перекоса
источник

SI

Sergey Ivanychev in Data Engineers
Кто-то здесь писал end-to-end тесты для Flink? Чтобы локально поднять кафку, напихать туда сообщений и во флинке их перемолоть в юнит-тесте
источник

DZ

Dmitry Zuev in Data Engineers
Звучит как обычный тест
источник

DZ

Dmitry Zuev in Data Engineers
Можно тест контейнерс попробовать
источник

DZ

Dmitry Zuev in Data Engineers
Можно дистейдж
источник

SI

Sergey Ivanychev in Data Engineers
Я вот как раз пробую testcontainers, не очень понимаю как флинк остановить — при запуске пайплайна флинк начинает слушать кафку и читать события — как вы останавливаете его в итоге и проверяете результат?
источник

DZ

Dmitry Zuev in Data Engineers
Мы никак
источник

DZ

Dmitry Zuev in Data Engineers
Но тут как бы как в спарк тест ките
источник