Телеграмм чат группы hadoopusers страница 2914

До прода не дошло. На больших объёмах пресловутый мердж не вывозил. Просто очень долго было. А крутилок каких-то особых нету. Отказались в пользу худи. Гораздо более зрелое решение.

источник

12:27пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

Попутно пишем в айсберг, чтобы накопилось побольше данных и можно было погонять бенчмарки какие-то, сравнить производительность на разное чтение.

источник

12:29пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

Anomalocaris Nathorsti

Добрый день!
А есть ли какое-нибудь API, с помощью которого можно завести много юзеров в HUE?

Группы заводи. И синхри их через sssd. Потом юзеров просто в группу пихай.

источник

12:30пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

Попутно пишем в айсберг, чтобы накопилось побольше данных и можно было погонять бенчмарки какие-то, сравнить производительность на разное чтение.

справедливости ради что надо сказать что мердж "как у больших" нормально и айсберг не может, прежде всего потому что пока не умеет засовывать информацию о своих бакетах в спарк; ну и перфоманс только-только начинаем смотреть и чинить...

источник

13:16пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

если нужно для "хранилищной" логики когда крупную пачку изменений надо смерджить с текущей версией - наверное лучше ванильный спарк использовать (ну или на датабриксе)

источник

13:17пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

а у худи для стриминга апсерт заточен

источник

13:18пожаловаться #12

N

Nikita Blagodarnyy in Data Engineers

Anton Zadorozhniy

справедливости ради что надо сказать что мердж "как у больших" нормально и айсберг не может, прежде всего потому что пока не умеет засовывать информацию о своих бакетах в спарк; ну и перфоманс только-только начинаем смотреть и чинить...

Так айсберг вообще в мердж не может.

источник

13:23пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

Так айсберг вообще в мердж не может.

да, но он и бакетированный джоин не умеет

источник

13:24пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

пишем мердж изо всех сил https://github.com/apache/iceberg/milestone/4

GitHub

apache/iceberg

Apache Iceberg. Contribute to apache/iceberg development by creating an account on GitHub.

источник

13:26пожаловаться #15

AT

Al T in Data Engineers

дорогие мои эксперты, подскажите плиз - Livy может одновременно исполнять multiple statements в одной session? или надо несколько session создавать?

источник

13:33пожаловаться #16

AT

Al T in Data Engineers

и если надо, то можно ли между ними шарить датафреймы например

источник

13:34пожаловаться #17

N

Nikita Blagodarnyy in Data Engineers

Anton Zadorozhniy

а у худи для стриминга апсерт заточен

У него есть разные стратегии для таблиц. Есть copy on write когда он вмердживает все в паркет на этапе записи. Это для батча. А есть merge on read, когда новые данные наваливаются рядом в авро и периодически на этапе чтения вмердживаются. Это для стриминга. И есть ещё запросы оптимизированные на чтение и чтение по ключу.

источник

13:36пожаловаться #18

AT

Al T in Data Engineers

Nikita Blagodarnyy

Попутно пишем в айсберг, чтобы накопилось побольше данных и можно было погонять бенчмарки какие-то, сравнить производительность на разное чтение.

во, не забудьте рассказать как оно там - оч. интересно

источник

13:49пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

К тому времени Антон уже мердж допилит и айсберг всех победит.

источник

13:51пожаловаться #20