Size: a a a

2020 July 21

SS

Sergey Sheremeta in Data Engineers
а к ДатаЛейку из Дремио через hive ходите?
источник

АЖ

Андрей Жуков... in Data Engineers
Sergey Sheremeta
а к ДатаЛейку из Дремио через hive ходите?
паркеты в с3
источник

SS

Sergey Sheremeta in Data Engineers
спасибо! интересно будет послушать ваш доклад!
источник

АЖ

Андрей Жуков... in Data Engineers
когда-нибудь я сделаю технический доклад про нарвала и его тараканов, но пока не придумал, где
источник

SS

Sergey Sheremeta in Data Engineers
а какие навскидку самые тараканистые тараканы?
источник

АЖ

Андрей Жуков... in Data Engineers
ошметки дрила, которые то работают, то нет
неумение обновлять метаданные на с3 при сбое ("ноу сач ки" знакомо каждому пользователю)
сходящий с ума от запросов табло оптимизатор
однопоточный загрузчик из jdbc
источник

TT

Tsh Tsh in Data Engineers
Чо то много боли
источник

SS

Sergey Sheremeta in Data Engineers
а в OSS все печальнее
источник

АЖ

Андрей Жуков... in Data Engineers
Tsh Tsh
Чо то много боли
да не особо, проблемные только метаданные, но это уже вкинули в сапорт, работают
источник

SS

Sergey Sheremeta in Data Engineers
в OSS вообще печально
источник

АЖ

Андрей Жуков... in Data Engineers
ну там еще и ролевой модели нет совсем
источник

MB

Mikhail Butalin in Data Engineers
А для KUDU нормально после останова кластера так долго восстанавливаться?
источник

MB

Mikhail Butalin in Data Engineers
правда, у нас там 75ТБ =)
источник
2020 July 22

TT

Tsh Tsh in Data Engineers
У меня был опыт что едва подняли
Данных было сильно меньше
Сразу перешли на импалу с куду
источник

TT

Tsh Tsh in Data Engineers
Хотя импала тоже очень болезненная
источник

А

Алексей in Data Engineers
Sergey Sheremeta
коллеги, подскажите где в Hive-каталоге хранится информация о бакетах?
в таблице BUCKETING_COLS пусто
BUCKETING_COLS и SORT_COLS , если еще актуально
общий запрос для получения основных метаданных:
hive.TBLS t \
   JOIN hive.DBS d on d.DB_ID = t.DB_ID \
   JOIN hive.SDS s ON t.SD_ID = s.SD_ID \
   JOIN hive.COLUMNS_V2 c ON s.CD_ID = c.CD_ID \
   left join hive.PARTITION_KEYS p on t.TBL_ID = p.TBL_ID \
   left join hive.TABLE_PARAMS tp on t.TBL_ID = tp.TBL_ID AND tp.param_key ='numRows' \
   left join hive.TABLE_PARAMS bf on t.TBL_ID = bf.TBL_ID AND bf.param_key ='orc.bloom.filter.columns' \
   left join ( \
       select pr.TBL_ID, SUM(ppr.param_value) as rows \
       from hive.PARTITIONS pr \
       join hive.PARTITION_PARAMS ppr on pr.PART_ID = ppr.PART_ID \
       WHERE ppr.param_key ='numRows' \
       group by pr.TBL_ID \
   ) tpr on tpr.TBL_ID = t.TBL_ID \
   left join ( select b.SD_ID, group_concat(b.BUCKET_COL_NAME ORDER BY b.INTEGER_IDX ASC) as bucket_cols  from hive.BUCKETING_COLS b group by b.SD_ID ) bc on bc.SD_ID = t.SD_ID \
   left join ( select cs.SD_ID, group_concat(cs.column_name ORDER BY cs.INTEGER_IDX ASC) as sort_cols  from hive.SORT_COLS cs group by cs.SD_ID ) sc on sc.SD_ID = t.SD_ID \
источник

SS

Sergey Sheremeta in Data Engineers
Алексей
BUCKETING_COLS и SORT_COLS , если еще актуально
общий запрос для получения основных метаданных:
hive.TBLS t \
   JOIN hive.DBS d on d.DB_ID = t.DB_ID \
   JOIN hive.SDS s ON t.SD_ID = s.SD_ID \
   JOIN hive.COLUMNS_V2 c ON s.CD_ID = c.CD_ID \
   left join hive.PARTITION_KEYS p on t.TBL_ID = p.TBL_ID \
   left join hive.TABLE_PARAMS tp on t.TBL_ID = tp.TBL_ID AND tp.param_key ='numRows' \
   left join hive.TABLE_PARAMS bf on t.TBL_ID = bf.TBL_ID AND bf.param_key ='orc.bloom.filter.columns' \
   left join ( \
       select pr.TBL_ID, SUM(ppr.param_value) as rows \
       from hive.PARTITIONS pr \
       join hive.PARTITION_PARAMS ppr on pr.PART_ID = ppr.PART_ID \
       WHERE ppr.param_key ='numRows' \
       group by pr.TBL_ID \
   ) tpr on tpr.TBL_ID = t.TBL_ID \
   left join ( select b.SD_ID, group_concat(b.BUCKET_COL_NAME ORDER BY b.INTEGER_IDX ASC) as bucket_cols  from hive.BUCKETING_COLS b group by b.SD_ID ) bc on bc.SD_ID = t.SD_ID \
   left join ( select cs.SD_ID, group_concat(cs.column_name ORDER BY cs.INTEGER_IDX ASC) as sort_cols  from hive.SORT_COLS cs group by cs.SD_ID ) sc on sc.SD_ID = t.SD_ID \
источник

А

Алексей in Data Engineers
хотя ты написал, что в BUCKETING_COLS пусто, тогда запрос может быть нерелевантен (ток сейчас заметил)
источник

SS

Sergey Sheremeta in Data Engineers
коллеги! как-то можно в SparkSQL сделать такое?

select *
from silver_table t
where (t._partition_key, t._subpartition_key) IN ( ('2020-01-01', 'RU'), ('2020-01-02', 'EN') )
источник

А

Алексей in Data Engineers
если не поддерживается, то сделать через OR или UNION
источник