Телеграмм чат группы hadoopusers страница 2789

20:48пожаловаться #1

K

KrivdaTheTriewe in Data Engineers

Oleksandr Averchenko

Мониторят качество данных в этом вашем тырпрайзе.
Смотрят откуда лезет мусор. Майнят мусор на инсайты.
Обмазываются мусором. Реконсилируют мусор. Чтобы поддерживать правильный уровень сигнал шум. Фиксят руткозы.
Нужны собственно там где ошибка будет стоит денег.

Это куда

22:15пожаловаться #2

2020 September 23

K

Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?

02:15пожаловаться #3

AG

Alexander Gorokhov in Data Engineers

Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?

Фигачь python udf!

08:28пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?

а нельзя просто спарк натравить на те же источники что престо?

09:10пожаловаться #5

HA

Hasan Al-Ammori in Data Engineers

Всем привет, есть интеграция Spark и presto, сейчас она работает через jdbc и работает очень долго - данные грузятся на один экзекьютор. Пробовал partitionColumn, lowerBound, upperBound - проблема та же.
Можно ли это как то ускорить и можно ли каким либо еще способом интегрировать Spark с presto?

Presto откуда данные берет? Почему бы Spark не брать из этого же источника?

09:44пожаловаться #6

K

К сожалению интеграционная шина это presto, напрямую до данных доступа нет

15:33пожаловаться #7

K

Alexander Gorokhov

Фигачь python udf!

У нас скала, как udf поможет?

15:37пожаловаться #8

AK

Alex Krash in Data Engineers

К сожалению интеграционная шина это presto, напрямую до данных доступа нет

у вас идёт поток вида: "Spark+jdbc -> Presto -> source". Тут bottleneck не обязательно на грани Spark<->Presto. Вы перекачиваете огромный датасет через Presto?

15:39пожаловаться #9

AK

Alex Krash in Data Engineers

Presto это же про "большой входной датасет -> маленькая свёртка".

15:40пожаловаться #10

K

Alex Krash

у вас идёт поток вида: "Spark+jdbc -> Presto -> source". Тут bottleneck не обязательно на грани Spark<->Presto. Вы перекачиваете огромный датасет через Presto?

Да, понимаю что проблема может быть не в presto. И да, датасет не маленький

15:41пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

К сожалению интеграционная шина это presto, напрямую до данных доступа нет

наверняка такая архитектура сделана для какой-нибудь особенно хорошей безопасности и управляемости, так что быстро работать точно не будет; постарайтесь в своей логике пушить как можно больше логики внутрь престо, а дальше только плакать с numpartitions/partitioncolumn/lowerbound/upperbound... и перепробег на престо будет огромный

15:47пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

для локальной отладки попробуйте сделать тестовые джобы из спарка в сторону какого-нибудь маленького постгре; обратите внимание какая колонка у вас partitioncolumn, это должна колонка поддерживающая between (числа, даты, таймстемпы) и с хорошей селективностью, чтобы не создавать перекоса

15:59пожаловаться #13

SI

Sergey Ivanychev in Data Engineers

Кто-то здесь писал end-to-end тесты для Flink? Чтобы локально поднять кафку, напихать туда сообщений и во флинке их перемолоть в юнит-тесте

16:47пожаловаться #14

DZ

Звучит как обычный тест

16:49пожаловаться #15

DZ

Можно тест контейнерс попробовать

16:49пожаловаться #16

DZ

Можно дистейдж

16:49пожаловаться #17

SI

Sergey Ivanychev in Data Engineers

Я вот как раз пробую testcontainers, не очень понимаю как флинк остановить — при запуске пайплайна флинк начинает слушать кафку и читать события — как вы останавливаете его в итоге и проверяете результат?

16:50пожаловаться #18

DZ

Мы никак

16:51пожаловаться #19

DZ

Но тут как бы как в спарк тест ките