Size: a a a

2019 December 13

В

Вадим in Data Engineers
почему?
источник

В

Вадим in Data Engineers
за месяц эксплотации пока не увидел если честно
источник

DM

Daniel Matveev in Data Engineers
если он и дальше в массы пойдет, скоро появится подвид найфай-девелоперов
источник

В

Вадим in Data Engineers
:) вот оно че
источник

DZ

Dmitry Zuev in Data Engineers
Daniel Matveev
если он и дальше в массы пойдет, скоро появится подвид найфай-девелоперов
Митапы уже есть
источник

DM

Daniel Matveev in Data Engineers
ну он все ресурсы вычислительные завязывает на себя, все механизмы завязывает на себя

там где можно было бы использовать несколько адекватных инструментов, будет ровно один (и как точка отказа тоже)

гуй - помойка джобов

результаты все промежуточные сваливает на диск
источник

DM

Daniel Matveev in Data Engineers
я в свое время, когда пробывал, то ждал что он решит проблему помойки джобов и будет все описано в одном месте

но одно место оказалось слишком буквально одним
источник

K

KrivdaTheTriewe in Data Engineers
Daniel Matveev
ну и если работать с тем же кликхаусом по наполнению надо будет не единожды, может иметь смысл рассмотреть конфигурируемые переливаторы аля флюм, кафка-коннект и прочие
Конфигурационные передиваторы делаются из спарка
источник

RF

Ruslan Fialkovsky in Data Engineers
Добрый день. Есть один волноющий вопрос по hive  и spark metastores. Подскажите пожалуйста. Как известно в hadoop 3 hive и spark теперь не имеют общего metastore.
Для доступа к metastore hive из spark рекомендуется использовать hive warehouse connector. Вопрос - что будет если вместо metastore.catalog.default = spark поставить metastore.catalog.default = hive в настройках spark? Будет ли корректно работать spark при такой настройке, нет ли каких либо подводных камней? Кто-то так пробовал?
источник

AZ

Anton Zadorozhniy in Data Engineers
Ruslan Fialkovsky
Добрый день. Есть один волноющий вопрос по hive  и spark metastores. Подскажите пожалуйста. Как известно в hadoop 3 hive и spark теперь не имеют общего metastore.
Для доступа к metastore hive из spark рекомендуется использовать hive warehouse connector. Вопрос - что будет если вместо metastore.catalog.default = spark поставить metastore.catalog.default = hive в настройках spark? Будет ли корректно работать spark при такой настройке, нет ли каких либо подводных камней? Кто-то так пробовал?
не будут корректно читаться / писаться ACID таблицы Hive, все остальное работает корректно
источник

RF

Ruslan Fialkovsky in Data Engineers
спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
я не видел ни одного большого кластера где использовались бы два каталога, обычно все живут в одном и либо не используют ACID либо ограничивают Spark от ACID политиками / ACL
источник

RF

Ruslan Fialkovsky in Data Engineers
Спасибо, моя тревожность теперь намного меньше 🙃
источник

A

Alex in Data Engineers
@dartov а можешь что подсказать по  hive.strict.managed.tables?

С дефолтным true стандартные create table  в спарк sql летят, а вот без стрикта насколько опасно лететь?
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
@dartov а можешь что подсказать по  hive.strict.managed.tables?

С дефолтным true стандартные create table  в спарк sql летят, а вот без стрикта насколько опасно лететь?
боюсь соврать, там были проблемы с переопределением ее на уровне сессии.. в спарке с поднятым стрикт у тебя формат орц должен работать, а вот скажем паркет зафейлится.. если на кластере поднят стрикт то я бы вообще не делал менеджд таблицы из спарка, использовал экстернал
источник

A

Alex in Data Engineers
Просто у нас по коду много где просто таблицы набрасываются, а потом партиции добрасываются как екстернал. А создание сразу екстернал требует и код поправить и локейшен указать

(у нас есть процесс по компакшену файлов в партиции, чтобы не ломать ничего пишется в новое место, а потом меняется в мете куда она указывает, позволяет не крешить текущие запущенные выборки из таблиц что файл/блок не найден)
источник

A

Alex in Data Engineers
Ну и у нас почти все в паркете, спасибо импале
источник

AZ

Anton Zadorozhniy in Data Engineers
выключите напрочь просто стрикт на кластере и все
источник

AZ

Anton Zadorozhniy in Data Engineers
да, компакторы такие практически у всех есть, одна из причин держать все в экстернал таблицах)
источник

A

Alex in Data Engineers
Anton Zadorozhniy
выключите напрочь просто стрикт на кластере и все
Ясно, просто оставлять включенным это надо будет во многих местах и либах код править... Вот и думал как минимизировать и насколько это опасно
источник