Size: a a a

2020 September 22

R

Renarde in Data Engineers
Alexandr Vladimirovich
ну есть гипотеза у меня, если не сильно обмазываться hadoop ecosystem, внедрить hdfs + hive и все джобы гонять на k8s, то жить вроде как можно
а зачем вам в bare-metal hdfs? какая такая в нем функциональность особенная, которой нет в baremetal k8s + s3-like storage?
+ к @dartov насчет схлопывания хадуп-менеджед платформ
источник

DZ

Dmitry Zuev in Data Engineers
Alexandr Vladimirovich
ну есть гипотеза у меня, если не сильно обмазываться hadoop ecosystem, внедрить hdfs + hive и все джобы гонять на k8s, то жить вроде как можно
Так хайв на спарке поверх k8s? Такое работает?
источник

AV

Alexandr Vladimirovi... in Data Engineers
Renarde
а зачем вам в bare-metal hdfs? какая такая в нем функциональность особенная, которой нет в baremetal k8s + s3-like storage?
+ к @dartov насчет схлопывания хадуп-менеджед платформ
в облако финансовую инфу не запихнуть, бизнес неразрешает и безопасники
s3 свой внутренний у нас есть, можем и туда, пока оцениваем варианты
просто на hdfs сверху можно много чего накрутить из engine типа Impala
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Zuev
Так хайв на спарке поверх k8s? Такое работает?
hive standalone, работает (ну точнее не падает :))
источник

AV

Alexandr Vladimirovi... in Data Engineers
Anton Zadorozhniy
hive standalone, работает (ну точнее не падает :))
да, standalone, не в k8s
источник

DZ

Dmitry Zuev in Data Engineers
Мб престо?
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
а зачем вам в bare-metal hdfs? какая такая в нем функциональность особенная, которой нет в baremetal k8s + s3-like storage?
+ к @dartov насчет схлопывания хадуп-менеджед платформ
у меня есть несколько клиентов которые сидят из-за HTE, аналогичное есть только в Isilon из он-премного
источник

AV

Alexandr Vladimirovi... in Data Engineers
Dmitry Zuev
Мб престо?
или его, тут надо ресерчить, очень много технологий, надо выбрать ту, которая с меньшей болью заведется
источник

AV

Alexandr Vladimirovi... in Data Engineers
Anton Zadorozhniy
у меня есть несколько клиентов которые сидят из-за HTE, аналогичное есть только в Isilon из он-премного
что за HTE?
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexandr Vladimirovich
что за HTE?
hadoop transparent encryption
источник

AV

Alexandr Vladimirovi... in Data Engineers
Anton Zadorozhniy
hadoop transparent encryption
не, настолько мы пока не хотим упороться
источник

AZ

Anton Zadorozhniy in Data Engineers
оно позволяет нанимать на опсовую работу контракторов - ты можешь иметь рутовые права но все равно данные не сможешь прочитать
источник

R

Renarde in Data Engineers
Alexandr Vladimirovich
в облако финансовую инфу не запихнуть, бизнес неразрешает и безопасники
s3 свой внутренний у нас есть, можем и туда, пока оцениваем варианты
просто на hdfs сверху можно много чего накрутить из engine типа Impala
это я понял - не запихивайте - делайте все на своих железках.
Сторадж у вас уже есть, hive metastore разверните как БД в k8s, и крутите k8s оператор со спарком для DE, и Presto для BI/etc
источник

DZ

Dmitry Zuev in Data Engineers
Renarde
это я понял - не запихивайте - делайте все на своих железках.
Сторадж у вас уже есть, hive metastore разверните как БД в k8s, и крутите k8s оператор со спарком для DE, и Presto для BI/etc
Во, дико плюсую
источник

AV

Alexandr Vladimirovi... in Data Engineers
Renarde
это я понял - не запихивайте - делайте все на своих железках.
Сторадж у вас уже есть, hive metastore разверните как БД в k8s, и крутите k8s оператор со спарком для DE, и Presto для BI/etc
а presto как вообще? Работоспособное? Типа BI будет коннектиться к нему? Но HDFS штука медленная, а для BI нужен более быстрый стораж
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
hadoop transparent encryption
а разве всякие minio не поддерживают всевозможное encryption (at-rest/in-transit)?
источник

AV

Alexandr Vladimirovi... in Data Engineers
мы предполагаем юзать hdfs как cold storage и крутить там периодически тяжелые запросы
возможно накрутить Kudu для online отчетов различных, либо заюзать Ignite
разделить хранилища на различные слои хранения по потребностям бизнеса
источник

R

Renarde in Data Engineers
Alexandr Vladimirovich
а presto как вообще? Работоспособное? Типа BI будет коннектиться к нему? Но HDFS штука медленная, а для BI нужен более быстрый стораж
я пользовался им, в целом ничего плохого сказать не могу, правда при >>100k партиций в одной таблице оно страдает GC issues, но тут скорее вопрос дизайна
источник

DZ

Dmitry Zuev in Data Engineers
Alexandr Vladimirovich
а presto как вообще? Работоспособное? Типа BI будет коннектиться к нему? Но HDFS штука медленная, а для BI нужен более быстрый стораж
Для быстрых отчётов нужены витрины и сервис леер типа ch
источник

AV

Alexandr Vladimirovi... in Data Engineers
Renarde
я пользовался им, в целом ничего плохого сказать не могу, правда при >>100k партиций в одной таблице оно страдает GC issues, но тут скорее вопрос дизайна
ну так партиционировать данные мы точно не будем, тут любая система сходить сума начнет
источник