Size: a a a

2020 July 22

A

Andrey in Data Engineers
источник

A

Andrey in Data Engineers
для Hive есть богатая wiki, рекомендую использовать
источник

АК

Анатолий Клюса... in Data Engineers
Хм, невнимательно прочитал инстр, сорян)
Да, по хайву хорошая дока.
источник

АК

Анатолий Клюса... in Data Engineers
А.. там надо по каждой партиции, у меня их там..... ))
Около 400, если по каждому дню за полтора года )))
Чуть позже тогда напишу скрипт, чтобы по всем это прогонял.
источник

A

Andrey in Data Engineers
внимательно читай доку, если без указания партиции, то он кошмарит все
источник

АК

Анатолий Клюса... in Data Engineers
ANALYZE TABLE msout2pq COMPUTE STATISTICS;
Error: Error while compiling statement: FAILED: SemanticException [Error 10115]: Table is partitioned and partition specification is needed (state=42000,code=10115)
источник

A

Andrey in Data Engineers
для партицированной таблицы ANALYZE TABLE Table1 PARTITION(ds, hr) COMPUTE STATISTICS;, т.е. указываешь названия партиций, НЕ указывая конкретных ЗНАЧЕНИЙ партиций:)
источник

АК

Анатолий Клюса... in Data Engineers
hive.stats.autogather=true
Посмотрел, вроде и так собирается.
У меня джоба добавляет каждый день по одному паркету за этот день.
Раз в пару часов делаю
MSCK REPAIR TABLE msout2pq SYNC PARTITIONS
источник

АК

Анатолий Клюса... in Data Engineers
Andrey
для партицированной таблицы ANALYZE TABLE Table1 PARTITION(ds, hr) COMPUTE STATISTICS;, т.е. указываешь названия партиций, НЕ указывая конкретных ЗНАЧЕНИЙ партиций:)
Блин, надо же быть таким ленивым и невнимательным как я ))
источник

АК

Анатолий Клюса... in Data Engineers
Как я понимаю, основная засада в group by xpath_string(m.fmessage, '/DOCUMENT.....
Паркет запакованный, он его распаковывает, парсит xml, конечно на это дело надо много памяти.
Но почему MR не скидывает это дело промежуточно на диск...
Я уже крутил различные параметры yarn MR2: и размер контейнера и java heap size - не помогает.
Я пришел к тому, что сам запрос надо как-то так построить или хинт дать, чтобы он потихоньку через диск все это просканил.
Даже подумывал через временную таблицу делать.
Но, блин, я ведь думал, что MR такая штука, которая хоть медленно, но добъет дело до конца ))
Ну да, у меня под целый кластер клаудеры всего 16 гигов оперативы на виртуалке)) Но я дааааанных там всего три гига паркетов.
источник

АК

Анатолий Клюса... in Data Engineers
Andrey
для партицированной таблицы ANALYZE TABLE Table1 PARTITION(ds, hr) COMPUTE STATISTICS;, т.е. указываешь названия партиций, НЕ указывая конкретных ЗНАЧЕНИЙ партиций:)
Не помогло...
источник

А

Алексей in Data Engineers
сделать больше тасков: mapred.reduce.tasks/mapreduce.job.reduces
источник

АК

Анатолий Клюса... in Data Engineers
О... вот что-то подобное я и искал...
Это можно в сессии хайва задать или надо глобально?
источник

А

Алексей in Data Engineers
еще такое: hive.exec.reducers.bytes.per.reducer
источник

А

Алексей in Data Engineers
погугулите)
источник

А

Алексей in Data Engineers
хайвом на мр уже никто не пользуется
источник

АК

Анатолий Клюса... in Data Engineers
Алексей
хайвом на мр уже никто не пользуется
Блин ))) А я думаю, что так как-то глухо...)
Дык, я поставил последнюю клаудеру, там есть хайв... Я вижу, что везде tez...
источник

АК

Анатолий Клюса... in Data Engineers
Что-то туда допилить или выкинуть клаудеру? )))
источник

АК

Анатолий Клюса... in Data Engineers
Алексей
еще такое: hive.exec.reducers.bytes.per.reducer
мне скорее mappers надо... ок, спс, погуглю)
источник

АК

Анатолий Клюса... in Data Engineers
Алексей
еще такое: hive.exec.reducers.bytes.per.reducer
У меня как раз maps не все выполнялись.
Сейчас уменьшил в 8 раз) mapreduce.input.fileinputformat.split.maxsize
Посмотрим...
источник