Телеграмм чат группы hadoopusers страница 3032

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2120 membersпожаловаться на группу

2020 December 11

KS

K S in Data Engineers

Когда pg_dump работает в 4 потока, то загрузка дисковой подсистемы средняя и не упирается в потолок ?

Я точно не замерял, у меня нет доступа по ssh в прод, а на хосте где запускается pg_dump system average подскакивает с 0.8 до 5.8

источник

20:07пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

-j вроде не умеет бить таблицы, каждый поток получает таблицы целиком, если у вас есть огромная таблица - она дампится последовательно

источник

20:08пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

(сам обычно делаю -Fd -j 8)

источник

20:08пожаловаться #3

KS

K S in Data Engineers

Anton Zadorozhniy

Имеется в виду на сервер куда пишутся дампы

На этом сервере pg_dump единственный клиент, так что все ресурсы только для него.

источник

20:08пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

На этом сервере pg_dump единственный клиент, так что все ресурсы только для него.

Ну а какой на это сервере диск? В его IO не упираетесь?

источник

20:09пожаловаться #5

KS

K S in Data Engineers

Anton Zadorozhniy

Ну а какой на это сервере диск? В его IO не упираетесь?

Там около 10 дисков, индивидуально для каждого шарда. Я пока не замерял IO, так что цифр нет.

источник

20:10пожаловаться #6

KS

K S in Data Engineers

Anton Zadorozhniy

-j вроде не умеет бить таблицы, каждый поток получает таблицы целиком, если у вас есть огромная таблица - она дампится последовательно

У нас пару таблиц очень большие, а всего их около ста. Получается если сделать -j 100, то всё равно будет качать большие таблицы целиком?

источник

20:13пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Там около 10 дисков, индивидуально для каждого шарда. Я пока не замерял IO, так что цифр нет.

1 ТБ за 3.5 часа это 83мб/сек, если у вас там одинокий том с крутилкой - вполне можете в него подпираться

источник

20:13пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

У нас пару таблиц очень большие, а всего их около ста. Получается если сделать -j 100, то всё равно будет качать большие таблицы целиком?

Он будет все качать целиком, просто каждая конкретная большая таблица будет дампится последовательно

источник

20:14пожаловаться #9

KS

K S in Data Engineers

Anton Zadorozhniy

Он будет все качать целиком, просто каждая конкретная большая таблица будет дампится последовательно

А если большая таблица partitioned, тогда ведь быстрее?

источник

20:15пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

А если большая таблица partitioned, тогда ведь быстрее?

Не уверен, посмотрю

источник

20:16пожаловаться #11

Д

Дмитрий in Data Engineers

Надо посмотреть по логам, как долго заливаются эти большие таблицы. У меня сейчас нет под рукой постгри.

источник

20:18пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Если обычный партишенинг (чайлд таблицы) то будет параллельно, хэш партишен я не очень понимаю пока

источник

20:19пожаловаться #13

KS

K S in Data Engineers

Вот это диски

источник

20:20пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

(извините, я баре жду когда ребенка закончит своё занятие, из меня сейчас плохой консультант)

источник

20:20пожаловаться #15

KS

K S in Data Engineers

Anton Zadorozhniy

Если обычный партишенинг (чайлд таблицы) то будет параллельно, хэш партишен я не очень понимаю пока

Не, у нас inherited partition

источник

20:21пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Вот это диски

Если эти тома - это прям одинокие диски-крутилки , то вы скорее всего упретесь в диск

источник

20:22пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Мб собрать из них чего пошустрее, рейд 10 там или что у вас любят

источник

20:22пожаловаться #18

KS

K S in Data Engineers

Anton Zadorozhniy

Мб собрать из них чего пошустрее, рейд 10 там или что у вас любят

Хорошая идея, надо спросить у девопсов. Ведь pg_dump обрабатывает один шард в единицу времени.

источник

20:25пожаловаться #19

KS

K S in Data Engineers

Надо посмотреть по логам, как долго заливаются эти большие таблицы. У меня сейчас нет под рукой постгри.

В принципе можно просто разделить время 3.5 часа в процентном соотношении и получить время на большую таблицу. А оптимизацию отслеживать по общему времени.

источник

20:28пожаловаться #20