Size: a a a

2020 August 03

N

Nikolay in Data Engineers
Андрей Жуков
Еще и спарк до 3 принесет много эмоций с wide-transformations :)
Есть wide dependencies ,а wide transformations не бывает. Просто в глаза бросается . Не смог не написать ).сорян
источник

АЖ

Андрей Жуков... in Data Engineers
Nikolay
Есть wide dependencies ,а wide transformations не бывает. Просто в глаза бросается . Не смог не написать ).сорян
не могу не отметить, что даже инженеры датабрикса и так, и сяк называют 🙂
источник

ЕГ

Евгений Глотов... in Data Engineers
Ivan
и всем снова привет.

пожскажите пож - а есть какой то человеческий способ отправить в кубер hdfs+hive+hive metastore+spark?

как это делают правильные и праведные люди?
Вроде кто-то вкорячил хайв метастор в кубер
источник

ЕГ

Евгений Глотов... in Data Engineers
Может есть и метастор поверх s3
источник

ЕГ

Евгений Глотов... in Data Engineers
Было бы попроще наверн
источник

АЖ

Андрей Жуков... in Data Engineers
Евгений Глотов
Может есть и метастор поверх s3
конечно, есть
источник

ЕГ

Евгений Глотов... in Data Engineers
Чем хдфс
источник

ЕГ

Евгений Глотов... in Data Engineers
Но блин с этим кубером все забыли, что данные нужно не только обрабатывать, но и хранить где-то)
источник

A

Alex in Data Engineers
сам хайв ведь не проблема, можно хоть 10 инстансов поднять
так как он стучится уже в реляционку, а вот её запихивать в кубер хзхз
источник

АЖ

Андрей Жуков... in Data Engineers
ну да, проблема именно с метастором
источник

АЖ

Андрей Жуков... in Data Engineers
но это надо просто инстанс субд поднять
источник

АЖ

Андрей Жуков... in Data Engineers
а не тащить чо попало в кубы
источник

A

Alex in Data Engineers
Евгений Глотов
Но блин с этим кубером все забыли, что данные нужно не только обрабатывать, но и хранить где-то)
сразу все говорят про даталокалити и делают hdfs
потом рассказывают что s3 рулить, сеть быстрая, даталокалити не нужна
потом добавляют s3 select api чтобы лишние данные не гонять по сети так как это долго и дорого, лучше выполнять фильтрацию рядом с данными

жду очередной итерации
источник

АЖ

Андрей Жуков... in Data Engineers
потом еще накидывают стопицот гейтов с3
источник

I

Ivan in Data Engineers
да блин на весь стек есть helm-чарты

и спарк
и хдфс+хайв+метастор
и зеппелин с суперсетом

и даже персистентность там включается

просто ставится это какой то разножопицей, и вечно всплывают мелкие косяки. например:
спарк не тянет паркет из хдфс - либы не хватает какой то. не беда доставить, но это ведь до первого перезапуска.

или - в хдфс не получить рутовые права, а без них юзера не сделать
источник

АЖ

Андрей Жуков... in Data Engineers
Ivan
да блин на весь стек есть helm-чарты

и спарк
и хдфс+хайв+метастор
и зеппелин с суперсетом

и даже персистентность там включается

просто ставится это какой то разножопицей, и вечно всплывают мелкие косяки. например:
спарк не тянет паркет из хдфс - либы не хватает какой то. не беда доставить, но это ведь до первого перезапуска.

или - в хдфс не получить рутовые права, а без них юзера не сделать
ну так надо править чарты и делать свои контейнеры
источник

АЖ

Андрей Жуков... in Data Engineers
магии не бывает
источник

I

Ivan in Data Engineers
я этим и занимаюсь
источник

I

Ivan in Data Engineers
Андрей Жуков
магии не бывает
мон шер ами!

я еще юн и молод, я верю в то что прилетит сова из хогвартса.
и что для моей беды есть какое то культурное решение.
источник

СХ

Старый Хрыч... in Data Engineers
Андрей Жуков
а не тащить чо попало в кубы
так субд сейчас и модно тащить в кубер, постоянно вакухи то пг на 12 шардов патрони, то mysql галера через оператор на 5-6 нод
источник