Телеграмм чат группы hadoopusers страница 3066

Size: a a a

Data Engineers

2020 December 17

Народ, подскажите какой лучше способ использовать для CDC из реляционной базы. Timestamp + фильтр ? Есть ли более продвинутые методы ?

источник

11:16пожаловаться #1

Алексей in Data Engineers

redo log

источник

11:17пожаловаться #2

Anton Zadorozhniy in Data Engineers

Смотря какие требования, какая база, сколько денег.. лог майнеры дают сами низкий оверхед на базу, самую маленькую задержку, но сложнее архитектурно, операционно, лицензии не из дешевых

источник

11:30пожаловаться #3

Nikita Blagodarnyy in Data Engineers

Ну дебезиум вроде бесплатный.

источник

11:33пожаловаться #4

Nikita Blagodarnyy in Data Engineers

И куски стримсета тоже.

источник

11:33пожаловаться #5

Anton Zadorozhniy in Data Engineers

Хотя нет, наверное BCV это самый низкий оверхед (его нет), но там с задержками похуже

источник

11:34пожаловаться #6

Nikita Blagodarnyy in Data Engineers

Nikita Blagodarnyy

И куски стримсета тоже.

Работает правда тоже не как голден гейт.

источник

11:34пожаловаться #7

Anton Zadorozhniy in Data Engineers

Поэтому и зависит какая база, дебезиум для разных СУБД разное умеет, ну и архитектурная и операционная сложность никуда не девается

источник

11:35пожаловаться #8

Nikita Blagodarnyy in Data Engineers

А в чем оверхед чтения архив логов с отдельного тома?

источник

11:37пожаловаться #9

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

А в чем оверхед чтения архив логов с отдельного тома?

Если это активный том под базой, и туда она продолжает писать во время чтения лога - конкуренция за ресурсы

источник

11:39пожаловаться #10

Anton Zadorozhniy in Data Engineers

Про разомкнутые тома (BCV) я написал выше

источник

11:39пожаловаться #11

Anton Zadorozhniy in Data Engineers

Ну и потом если ваш CDC не поддерживает DDL (как дебезиум для оракла) - надо как-то его ещё доставать

источник

11:40пожаловаться #12

Алексей in Data Engineers

cdc для оракла требует еще базовую лицензию GG

источник

11:43пожаловаться #13

Alex in Data Engineers

Anton Zadorozhniy

Page cache, но это не делает чтение индексным, это все равно скан

скан то скан, но там же внутри паркета тоже по страницам разбито и тот же min/max по колонке хранится отдельно, поэтому многие страницы можно будет пропускать

источник

11:43пожаловаться #14

Anton Zadorozhniy in Data Engineers

Alex

я писал что pdo + partition elimination есть конечно, но это все равно скан

источник

11:45пожаловаться #15

Alex in Data Engineers

да, всё равно скан, пускай и с пропусками

источник

11:45пожаловаться #16

Alex in Data Engineers