Size: a a a

2020 October 17

MB

Mikhail Butalin in Data Engineers
У меня репликация Hive дичайше тупит когда делаю копию 5БД, находит в них 65тыс таблиц
источник

MB

Mikhail Butalin in Data Engineers
по моему это ненормально
источник

MB

Mikhail Butalin in Data Engineers
несколько тасков сорвалось вообще на этапе export hive metadata
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Butalin
У меня репликация Hive дичайше тупит когда делаю копию 5БД, находит в них 65тыс таблиц
Так hive это big data, а вам нужно many data
источник

AZ

Anton Zadorozhniy in Data Engineers
Извините
источник

s

serge in Data Engineers
Anton Zadorozhniy
Так hive это big data, а вам нужно many data
🤣🤣🤣
источник

MB

Mikhail Butalin in Data Engineers
шта?
источник

MB

Mikhail Butalin in Data Engineers
...нашёл проблему, кажется
источник

MB

Mikhail Butalin in Data Engineers
какойто деятель создал таблицу с \r в имени на конце
источник

神風 in Data Engineers
Всем привет. Есть у кого-нибудь ссылка на полный список зависимостей для запуска Distcp из java приложения?
источник

神風 in Data Engineers
А то уже подзадолбался искать... Остановился на NoClassDefFoundError org.apache.hadoop.metrics.Updater
источник

神風 in Data Engineers
источник

神風 in Data Engineers
Но этого, видимо недостаточно
источник
2020 October 18

OA

Oleksandr Averchenko in Data Engineers
источник

ME

Max Efremov in Data Engineers
Сначала подумал, что реклама майнинга или битков опять)
источник
2020 October 19

MB

Mikhail Butalin in Data Engineers
Коллеги, так что скажете про большое количество таблиц в Hive ? Большое для меня - это 65К+ на 5 БД и 2млн+ на  все БД
источник

MB

Mikhail Butalin in Data Engineers
Есть какието ограничение по количество сущностей в hive metastore?  где почитать?
источник

А

Алексей in Data Engineers
Ограничения мне не известны, но предполагаю, что придется тюнить запросы уже в самой бд метастора
источник

A

Alex in Data Engineers
@Michaelikus официально нету, на практике некоторые запросы могут подтормаживать

схема у хайва в базе данных печальна и во многих местах где нужны индексы их нельзя построить =(
поэтому при большом количестве партиций может быть не очень хорошо

https://www.slideshare.net/Hadoop_Summit/oraclestore-a-highly-performant-rawstore-implementation-for-hive-metastore

там есть слайды с замерами
источник

A

Alex in Data Engineers
Алексей
Ограничения мне не известны, но предполагаю, что придется тюнить запросы уже в самой бд метастора
сложно их тюнить так как часть из древнего орм, а вторая часть чуть ли не через конкатенацию строк генерится по ast дереву запроса (directsql который)
источник