Телеграмм чат группы hadoopusers страница 2557

А.. там надо по каждой партиции, у меня их там..... ))
Около 400, если по каждому дню за полтора года )))
Чуть позже тогда напишу скрипт, чтобы по всем это прогонял.

источник

17:21пожаловаться #4

Andrey in Data Engineers

внимательно читай доку, если без указания партиции, то он кошмарит все

источник

17:22пожаловаться #5

АК

Анатолий Клюса... in Data Engineers

ANALYZE TABLE msout2pq COMPUTE STATISTICS;
Error: Error while compiling statement: FAILED: SemanticException [Error 10115]: Table is partitioned and partition specification is needed (state=42000,code=10115)

источник

17:22пожаловаться #6

Andrey in Data Engineers

для партицированной таблицы ANALYZE TABLE Table1 PARTITION(ds, hr) COMPUTE STATISTICS;, т.е. указываешь названия партиций, НЕ указывая конкретных ЗНАЧЕНИЙ партиций:)

источник

17:24пожаловаться #7

АК

Анатолий Клюса... in Data Engineers

hive.stats.autogather=true
Посмотрел, вроде и так собирается.
У меня джоба добавляет каждый день по одному паркету за этот день.
Раз в пару часов делаю
MSCK REPAIR TABLE msout2pq SYNC PARTITIONS

источник

17:26пожаловаться #8

АК

Анатолий Клюса... in Data Engineers

Andrey

Блин, надо же быть таким ленивым и невнимательным как я ))

источник

17:27пожаловаться #9

АК

Анатолий Клюса... in Data Engineers

Как я понимаю, основная засада в group by xpath_string(m.fmessage, '/DOCUMENT.....
Паркет запакованный, он его распаковывает, парсит xml, конечно на это дело надо много памяти.
Но почему MR не скидывает это дело промежуточно на диск...
Я уже крутил различные параметры yarn MR2: и размер контейнера и java heap size - не помогает.
Я пришел к тому, что сам запрос надо как-то так построить или хинт дать, чтобы он потихоньку через диск все это просканил.
Даже подумывал через временную таблицу делать.
Но, блин, я ведь думал, что MR такая штука, которая хоть медленно, но добъет дело до конца ))
Ну да, у меня под целый кластер клаудеры всего 16 гигов оперативы на виртуалке)) Но я дааааанных там всего три гига паркетов.

источник

17:35пожаловаться #10

АК

Анатолий Клюса... in Data Engineers

Andrey

Не помогло...

источник

17:36пожаловаться #11

Алексей in Data Engineers

сделать больше тасков: mapred.reduce.tasks/mapreduce.job.reduces

источник

17:36пожаловаться #12