Телеграмм чат группы hadoopusers страница 2707

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1933 membersпожаловаться на группу

2020 September 04

AZ

Anton Zadorozhniy in Data Engineers

на счет Impala и spill to disk, добрался до админки - вроде все включено, вижу что у здоровых запросов счетчики spill более нуля. значит работает. но все равно регулярно получаем вылеты по памяти. из недавнего селект * без джоина на табличку в 40мб отожрал 20гб и вылител по лимиту. единственно там статистики не было совсем, сбор статистики выправил ситуацию.
может после каждой загрузки стоит тотально на все собирать статистики ?

я не помню уже как там статистика в импале устроена, но общая практика в нормальных СУБД это собирать статистику только когда оптимизатор не справляется (или не может принять нормальное решение на базе сэмпла), иначе есть риск того что ваша система только и будет что собирать статистику

источник

09:38пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

у нас к примеру этому делу посвящены большие куски курсов и документации (при том что на лету оптимизатор сэмплирует очень хорошо), однозначного ответа нет и все зависит от ваших данных, запросов, размеров и загруженности системы

источник

09:40пожаловаться #2

D

Dmitry in Data Engineers

Anton Zadorozhniy

у нас к примеру этому делу посвящены большие куски курсов и документации (при том что на лету оптимизатор сэмплирует очень хорошо), однозначного ответа нет и все зависит от ваших данных, запросов, размеров и загруженности системы

хуже что сбор статистики тоже память жрет и может усугубить ситуацию. но в принципе ясно, волшебных кнопочек нет

источник

09:42пожаловаться #3

А

Алексей in Data Engineers

в хайве статистика по таблице собирается во время вставки

источник

09:42пожаловаться #4

А

Алексей in Data Engineers

если бд не поддерживает обновления, то собрать статистику по таблице выглядит не очень сложно

источник

09:43пожаловаться #5

А

Алексей in Data Engineers

если нужна статистика по столбцам, то отдельно запускать

источник

09:43пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

в хайве статистика по таблице собирается во время вставки

такую статистику которую хайв собирает при вставке любая СУБД знает и аппроксимирует, там же только число строк, файлов, объем данных и число партиций

источник

09:48пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

обычно речь идет о колонках на путях соединений и основным фильтрам

источник

09:49пожаловаться #8

А

Алексей in Data Engineers

мин/макс колонки еще берется из заголовков файлов

источник

09:51пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

у нас есть сказать collect stats <table_name> просто то СУБД ответит There are no statistics defined for the table

источник

09:54пожаловаться #10

А

Алексей in Data Engineers

у вас - это в террадате?

источник

09:57пожаловаться #11

А

Алексей in Data Engineers

про импалу просто никто так и не ответил)

источник

09:57пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

мин/макс колонки еще берется из заголовков файлов

разве? https://issues.apache.org/jira/browse/HIVE-11160

источник

09:57пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

у вас - это в террадате?

угу

источник

09:57пожаловаться #14

А

Алексей in Data Engineers

Anton Zadorozhniy

разве? https://issues.apache.org/jira/browse/HIVE-11160

это похоже для нового хайва, у меня только старые 1.2 и 2.1

источник

10:00пожаловаться #15

А

Алексей in Data Engineers

в старых hive.stats.column.autogather=false

источник

10:01пожаловаться #16

А

Алексей in Data Engineers

но можно попробовать включить

источник

10:01пожаловаться #17

А

Алексей in Data Engineers

и это заодно hive.compute.query.using.stats )

источник

10:02пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

а, да, hive.stats.column.autogather был же

источник

10:03пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

я правда не помню про заголовки файлов, мб так где они есть он берет, но для всяких авро и цсв наверное честно обсчитывает

источник

10:04пожаловаться #20