Телеграмм чат группы hadoopusers страница 2552

ошметки дрила, которые то работают, то нет
неумение обновлять метаданные на с3 при сбое ("ноу сач ки" знакомо каждому пользователю)
сходящий с ума от запросов табло оптимизатор
однопоточный загрузчик из jdbc

источник

22:23пожаловаться #6

Tsh Tsh in Data Engineers

Чо то много боли

источник

22:24пожаловаться #7

Sergey Sheremeta in Data Engineers

а в OSS все печальнее

источник

22:29пожаловаться #8

АЖ

Андрей Жуков... in Data Engineers

Tsh Tsh

Чо то много боли

да не особо, проблемные только метаданные, но это уже вкинули в сапорт, работают

источник

22:29пожаловаться #9

Sergey Sheremeta in Data Engineers

в OSS вообще печально

источник

22:30пожаловаться #10

АЖ

Андрей Жуков... in Data Engineers

ну там еще и ролевой модели нет совсем

источник

22:30пожаловаться #11

Mikhail Butalin in Data Engineers

А для KUDU нормально после останова кластера так долго восстанавливаться?

источник

23:54пожаловаться #12

Mikhail Butalin in Data Engineers

правда, у нас там 75ТБ =)

источник

23:54пожаловаться #13

2020 July 22

Tsh Tsh in Data Engineers

У меня был опыт что едва подняли
Данных было сильно меньше
Сразу перешли на импалу с куду

источник

00:21пожаловаться #14

Tsh Tsh in Data Engineers

Хотя импала тоже очень болезненная

источник

00:21пожаловаться #15

Алексей in Data Engineers

Sergey Sheremeta

коллеги, подскажите где в Hive-каталоге хранится информация о бакетах?
в таблице BUCKETING_COLS пусто

BUCKETING_COLS и SORT_COLS , если еще актуально
общий запрос для получения основных метаданных:

hive.TBLS t \
    JOIN hive.DBS d on d.DB_ID = t.DB_ID \
    JOIN hive.SDS s ON t.SD_ID = s.SD_ID \
    JOIN hive.COLUMNS_V2 c ON s.CD_ID = c.CD_ID \
    left join hive.PARTITION_KEYS p on t.TBL_ID = p.TBL_ID \
    left join hive.TABLE_PARAMS tp on t.TBL_ID = tp.TBL_ID AND tp.param_key ='numRows' \
    left join hive.TABLE_PARAMS bf on t.TBL_ID = bf.TBL_ID AND bf.param_key ='orc.bloom.filter.columns' \
    left join ( \
        select pr.TBL_ID, SUM(ppr.param_value) as rows \
        from hive.PARTITIONS pr \
        join hive.PARTITION_PARAMS ppr on pr.PART_ID = ppr.PART_ID \
        WHERE ppr.param_key ='numRows' \
        group by pr.TBL_ID \
    ) tpr on tpr.TBL_ID = t.TBL_ID \
    left join ( select b.SD_ID, group_concat(b.BUCKET_COL_NAME ORDER BY b.INTEGER_IDX ASC) as bucket_cols  from hive.BUCKETING_COLS b group by b.SD_ID ) bc on bc.SD_ID = t.SD_ID \
    left join ( select cs.SD_ID, group_concat(cs.column_name ORDER BY cs.INTEGER_IDX ASC) as sort_cols  from hive.SORT_COLS cs group by cs.SD_ID ) sc on sc.SD_ID = t.SD_ID \

источник

11:26пожаловаться #16

Sergey Sheremeta in Data Engineers

Алексей

BUCKETING_COLS и SORT_COLS , если еще актуально
общий запрос для получения основных метаданных:

hive.TBLS t \
    JOIN hive.DBS d on d.DB_ID = t.DB_ID \
    JOIN hive.SDS s ON t.SD_ID = s.SD_ID \
    JOIN hive.COLUMNS_V2 c ON s.CD_ID = c.CD_ID \
    left join hive.PARTITION_KEYS p on t.TBL_ID = p.TBL_ID \
    left join hive.TABLE_PARAMS tp on t.TBL_ID = tp.TBL_ID AND tp.param_key ='numRows' \
    left join hive.TABLE_PARAMS bf on t.TBL_ID = bf.TBL_ID AND bf.param_key ='orc.bloom.filter.columns' \
    left join ( \
        select pr.TBL_ID, SUM(ppr.param_value) as rows \
        from hive.PARTITIONS pr \
        join hive.PARTITION_PARAMS ppr on pr.PART_ID = ppr.PART_ID \
        WHERE ppr.param_key ='numRows' \
        group by pr.TBL_ID \
    ) tpr on tpr.TBL_ID = t.TBL_ID \
    left join ( select b.SD_ID, group_concat(b.BUCKET_COL_NAME ORDER BY b.INTEGER_IDX ASC) as bucket_cols  from hive.BUCKETING_COLS b group by b.SD_ID ) bc on bc.SD_ID = t.SD_ID \
    left join ( select cs.SD_ID, group_concat(cs.column_name ORDER BY cs.INTEGER_IDX ASC) as sort_cols  from hive.SORT_COLS cs group by cs.SD_ID ) sc on sc.SD_ID = t.SD_ID \

sticker.webp

(38.04 Кб)

источник

11:27пожаловаться #17

Алексей in Data Engineers

хотя ты написал, что в BUCKETING_COLS пусто, тогда запрос может быть нерелевантен (ток сейчас заметил)

источник

11:30пожаловаться #18

Sergey Sheremeta in Data Engineers

коллеги! как-то можно в SparkSQL сделать такое?

select *
from silver_table t
where (t._partition_key, t._subpartition_key) IN ( ('2020-01-01', 'RU'), ('2020-01-02', 'EN') )

источник

11:42пожаловаться #19

Алексей in Data Engineers

если не поддерживается, то сделать через OR или UNION

источник

11:57пожаловаться #20