Size: a a a

2020 November 02

I

Ilya in Data Engineers
dobbry vechur
В корзине?
😇👌🏻
источник

I

Ilya in Data Engineers
бац и 12 гигов освободило )
источник

A

Andrey in Data Engineers
Коллеги, кто-нибудь использует Apache ozone?
источник

AN

Anomalocaris Nathors... in Data Engineers
Добрый день!
А есть ли какое-нибудь API, с помощью которого можно завести много юзеров в HUE?
источник

S

Stanislav in Data Engineers
лдап
источник

S

Stanislav in Data Engineers
прекрасный апи
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Если такие есть то интересно их послушать
До прода не дошло. На больших объёмах пресловутый мердж не вывозил. Просто очень долго было. А крутилок каких-то особых нету. Отказались в пользу худи. Гораздо более зрелое решение.
источник

N

Nikita Blagodarnyy in Data Engineers
Попутно пишем в айсберг, чтобы накопилось побольше данных и можно было погонять бенчмарки какие-то, сравнить производительность на разное чтение.
источник

N

Nikita Blagodarnyy in Data Engineers
Anomalocaris Nathorsti
Добрый день!
А есть ли какое-нибудь API, с помощью которого можно завести много юзеров в HUE?
Группы заводи. И синхри их через sssd. Потом юзеров просто в группу пихай.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Попутно пишем в айсберг, чтобы накопилось побольше данных и можно было погонять бенчмарки какие-то, сравнить производительность на разное чтение.
справедливости ради что надо сказать что мердж "как у больших" нормально и айсберг не может, прежде всего потому что пока не умеет засовывать информацию о своих бакетах в спарк; ну и перфоманс только-только начинаем смотреть и чинить...
источник

AZ

Anton Zadorozhniy in Data Engineers
если нужно для "хранилищной" логики когда крупную пачку изменений надо смерджить с текущей версией - наверное лучше ванильный спарк использовать (ну или на датабриксе)
источник

AZ

Anton Zadorozhniy in Data Engineers
а у худи для стриминга апсерт заточен
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
справедливости ради что надо сказать что мердж "как у больших" нормально и айсберг не может, прежде всего потому что пока не умеет засовывать информацию о своих бакетах в спарк; ну и перфоманс только-только начинаем смотреть и чинить...
Так айсберг вообще в мердж не может.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Так айсберг вообще в мердж не может.
да, но он и бакетированный джоин не умеет
источник

AZ

Anton Zadorozhniy in Data Engineers
пишем мердж изо всех сил https://github.com/apache/iceberg/milestone/4
источник

AT

Al T in Data Engineers
дорогие мои эксперты, подскажите плиз - Livy может одновременно исполнять multiple statements в одной session? или надо несколько session создавать?
источник

AT

Al T in Data Engineers
и если надо, то можно ли между ними шарить датафреймы например
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
а у худи для стриминга апсерт заточен
У него есть разные стратегии для таблиц. Есть copy on write когда он вмердживает все в паркет на этапе записи. Это для батча. А есть merge on read, когда новые данные наваливаются рядом в авро и периодически на этапе чтения вмердживаются. Это для стриминга. И есть ещё запросы оптимизированные на чтение и чтение по ключу.
источник

AT

Al T in Data Engineers
Nikita Blagodarnyy
Попутно пишем в айсберг, чтобы накопилось побольше данных и можно было погонять бенчмарки какие-то, сравнить производительность на разное чтение.
во, не забудьте рассказать как оно там - оч. интересно
источник

N

Nikita Blagodarnyy in Data Engineers
К тому времени Антон уже мердж допилит и айсберг всех победит.
источник