Телеграмм чат группы hadoopusers страница 1888

ну он все ресурсы вычислительные завязывает на себя, все механизмы завязывает на себя

там где можно было бы использовать несколько адекватных инструментов, будет ровно один (и как точка отказа тоже)

гуй - помойка джобов

результаты все промежуточные сваливает на диск

источник

09:25пожаловаться #6

DM

Daniel Matveev in Data Engineers

я в свое время, когда пробывал, то ждал что он решит проблему помойки джобов и будет все описано в одном месте

но одно место оказалось слишком буквально одним

источник

09:26пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

Daniel Matveev

ну и если работать с тем же кликхаусом по наполнению надо будет не единожды, может иметь смысл рассмотреть конфигурируемые переливаторы аля флюм, кафка-коннект и прочие

Конфигурационные передиваторы делаются из спарка

источник

09:35пожаловаться #8

RF

Ruslan Fialkovsky in Data Engineers

Добрый день. Есть один волноющий вопрос по hive и spark metastores. Подскажите пожалуйста. Как известно в hadoop 3 hive и spark теперь не имеют общего metastore.
Для доступа к metastore hive из spark рекомендуется использовать hive warehouse connector. Вопрос - что будет если вместо metastore.catalog.default = spark поставить metastore.catalog.default = hive в настройках spark? Будет ли корректно работать spark при такой настройке, нет ли каких либо подводных камней? Кто-то так пробовал?

источник

11:35пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

Ruslan Fialkovsky

Добрый день. Есть один волноющий вопрос по hive и spark metastores. Подскажите пожалуйста. Как известно в hadoop 3 hive и spark теперь не имеют общего metastore.
Для доступа к metastore hive из spark рекомендуется использовать hive warehouse connector. Вопрос - что будет если вместо metastore.catalog.default = spark поставить metastore.catalog.default = hive в настройках spark? Будет ли корректно работать spark при такой настройке, нет ли каких либо подводных камней? Кто-то так пробовал?

не будут корректно читаться / писаться ACID таблицы Hive, все остальное работает корректно

источник

11:37пожаловаться #10

RF

Ruslan Fialkovsky in Data Engineers

спасибо

источник

11:37пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

я не видел ни одного большого кластера где использовались бы два каталога, обычно все живут в одном и либо не используют ACID либо ограничивают Spark от ACID политиками / ACL

источник

11:40пожаловаться #12

RF

Ruslan Fialkovsky in Data Engineers

Спасибо, моя тревожность теперь намного меньше 🙃

источник

11:53пожаловаться #13

A

Alex in Data Engineers

@dartov а можешь что подсказать по hive.strict.managed.tables?

С дефолтным true стандартные create table в спарк sql летят, а вот без стрикта насколько опасно лететь?

источник

12:49пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Alex

@dartov а можешь что подсказать по hive.strict.managed.tables?

С дефолтным true стандартные create table в спарк sql летят, а вот без стрикта насколько опасно лететь?

боюсь соврать, там были проблемы с переопределением ее на уровне сессии.. в спарке с поднятым стрикт у тебя формат орц должен работать, а вот скажем паркет зафейлится.. если на кластере поднят стрикт то я бы вообще не делал менеджд таблицы из спарка, использовал экстернал

источник

12:57пожаловаться #15

A

Alex in Data Engineers

Просто у нас по коду много где просто таблицы набрасываются, а потом партиции добрасываются как екстернал. А создание сразу екстернал требует и код поправить и локейшен указать

(у нас есть процесс по компакшену файлов в партиции, чтобы не ломать ничего пишется в новое место, а потом меняется в мете куда она указывает, позволяет не крешить текущие запущенные выборки из таблиц что файл/блок не найден)

источник

13:02пожаловаться #16

A

Alex in Data Engineers

Ну и у нас почти все в паркете, спасибо импале

источник

13:03пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

выключите напрочь просто стрикт на кластере и все

источник

13:05пожаловаться #18