Size: a a a

2020 July 22

А

Алексей in Data Engineers
Stanislav
Хехе. Добро пожаловать в мир hive llap, который стал частью hive3, ну и hwc в придачу)
Ллап норм работает, но только на мелких запросах
источник

A

Andrey in Data Engineers
Анатолий Клюса
Ага, значит хайв с MR2 не такая уж плохая штука) раз тез еще ненадежен...
Тез хорош, намного быстрее MR, но он не ориентирован на мощности в 16Гб 😁
источник

A

Andrey in Data Engineers
Там куча оптимизаций
источник

S

Stanislav in Data Engineers
Andrey
Тез хорош, намного быстрее MR, но он не ориентирован на мощности в 16Гб 😁
Ровно до момента ошибки оптимизатора
источник

S

Stanislav in Data Engineers
После которой таска превращается в тыкву вместо результата в мр. А делает он часто так
источник

S

Stanislav in Data Engineers
Да и сильно быстрее ли
источник

S

Stanislav in Data Engineers
Анатолий Клюса
Ага, значит хайв с MR2 не такая уж плохая штука) раз тез еще ненадежен...
Да. Но у вас же 1 большой источник?
источник

S

Stanislav in Data Engineers
Почему не кх?
источник

A

Alex in Data Engineers
Stanislav
И хайв3
конечно же это не так

https://github.com/apache/hive/blob/master/common/src/java/org/apache/hadoop/hive/conf/HiveConf.java#L4027-L4030

mr убран из выбора на UI в hdp3
но в хайве и кодовой базе он остался
источник

A

Alex in Data Engineers
поэтому явное включение позволяет ему работать
источник

АК

Анатолий Клюса... in Data Engineers
Stanislav
Да, конечно
Я чет запутался ))
Знач в теперешней беспл. клаудере 6.3 хадуп2 и MR2.
В третьем хадупе тез?
Третий хадуп у кого?)..
В общем, мне хранить архивы и скачивать их с оракла через стримсетс , встроенный в клаудеру 6, в паркет, очень даже норм. Все устраивает, думаю, когда памяти будет поболе, то я тяжелые запросы норм будут выполняться...
А в будущем, если что, заберу паркеты в другое место...
Или есть в моих рассуждениях явные провалы, что скажете?
источник

S

Stanislav in Data Engineers
Alex
поэтому явное включение позволяет ему работать
К сожалению, нет :(
источник

A

Alex in Data Engineers
у вас какая версия хайва?
если от хортона то я не удивлюсь, так как они его патчили жестоко
причем патчи некоторые в апстрим не вошли так как вызывают косяки, но в хортон их включили ради других вещей

поэтому даже стартовав с HDP мы быстро снесли хортон хайв и накатили апачевскую версию
источник

АК

Анатолий Клюса... in Data Engineers
Stanislav
Да. Но у вас же 1 большой источник?
Э... ну да, ну как большой, просто хочу из рабочей бд в оракле забирать инфу в архив, в оракле дорого и не надо всеиэто держать.
А кликхаус нам не читали на курсах по DE )))
Взял пока, что читали и с чем был знаком, клаудеру, хадуп...)
источник

S

Stanislav in Data Engineers
Alex
у вас какая версия хайва?
если от хортона то я не удивлюсь, так как они его патчили жестоко
причем патчи некоторые в апстрим не вошли так как вызывают косяки, но в хортон их включили ради других вещей

поэтому даже стартовав с HDP мы быстро снесли хортон хайв и накатили апачевскую версию
Вот вот, хдп от 3.0.1 до 3.1.4. Радует, что в ваниле ещё можно жить.
источник

A

Alex in Data Engineers
Анатолий Клюса
Я чет запутался ))
Знач в теперешней беспл. клаудере 6.3 хадуп2 и MR2.
В третьем хадупе тез?
Третий хадуп у кого?)..
В общем, мне хранить архивы и скачивать их с оракла через стримсетс , встроенный в клаудеру 6, в паркет, очень даже норм. Все устраивает, думаю, когда памяти будет поболе, то я тяжелые запросы норм будут выполняться...
А в будущем, если что, заберу паркеты в другое место...
Или есть в моих рассуждениях явные провалы, что скажете?
6.x ветка вышла ещё до поглощения, там остался хайв старый, клоудера никогда норм вещи на него не предлагала, хотите процессить используйте импалу, хайв только как метасторейдж у них. клоудера так же была спонсором разработки спарк енжайна для хайва, так как люди не все хотели уходить на импалу, но и mr это уж очень легаси

хортон продолжал пилить имеено хайв, вливал оптимизации, запилил tez, llap и тд. транзакции в хайве (в импале их не было)

на момент покупки был выбор между hive+tez+llap(для быстрых запросов)+transaction vs impala

ну ещё у хортона обычно более свежии версии компонентов были
клоудера упирала на стабильность (пускай и говно мамонта, но стабильное говно)

то есть выбор дистрибутива сразу диктовал стек который будет доступен и фичи которые доступны в компонентах
источник

S

Stanislav in Data Engineers
Анатолий Клюса
Я чет запутался ))
Знач в теперешней беспл. клаудере 6.3 хадуп2 и MR2.
В третьем хадупе тез?
Третий хадуп у кого?)..
В общем, мне хранить архивы и скачивать их с оракла через стримсетс , встроенный в клаудеру 6, в паркет, очень даже норм. Все устраивает, думаю, когда памяти будет поболе, то я тяжелые запросы норм будут выполняться...
А в будущем, если что, заберу паркеты в другое место...
Или есть в моих рассуждениях явные провалы, что скажете?
End of life когда у этой клаудеры? В этом году или в следующем?
источник

A

Alex in Data Engineers
про клоудеру 7ю не знаю, поэтому не скажу что там по компонентам
источник

АК

Анатолий Клюса... in Data Engineers
Stanislav
End of life когда у этой клаудеры? В этом году или в следующем?
Это сарказм?) Или там как в убунте есть lts и не lts?)
Взял последнюю версию из бесплатного...
источник

A

Alex in Data Engineers
Stanislav
End of life когда у этой клаудеры? В этом году или в следующем?
кластер на пару сотен машин с клоудерой 5.8 всплакнул в уголку
источник