Size: a a a

2020 December 17

e

er@essbase.ru in Data Engineers
Народ, подскажите какой лучше способ использовать для CDC из реляционной базы. Timestamp + фильтр ?  Есть ли более продвинутые методы ?
источник

А

Алексей in Data Engineers
redo log
источник

AZ

Anton Zadorozhniy in Data Engineers
Смотря какие требования, какая база, сколько денег.. лог майнеры дают сами низкий оверхед на базу, самую маленькую задержку, но сложнее архитектурно, операционно, лицензии не из дешевых
источник

N

Nikita Blagodarnyy in Data Engineers
Ну дебезиум вроде бесплатный.
источник

N

Nikita Blagodarnyy in Data Engineers
И куски стримсета тоже.
источник

AZ

Anton Zadorozhniy in Data Engineers
Хотя нет, наверное BCV это самый низкий оверхед (его нет), но там с задержками похуже
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
И куски стримсета тоже.
Работает правда тоже не как голден гейт.
источник

AZ

Anton Zadorozhniy in Data Engineers
Поэтому и зависит какая база, дебезиум для разных СУБД разное умеет, ну и архитектурная и операционная сложность никуда не девается
источник

N

Nikita Blagodarnyy in Data Engineers
А в чем оверхед чтения архив логов с отдельного тома?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
А в чем оверхед чтения архив логов с отдельного тома?
Если это активный том под базой, и туда она продолжает писать во время чтения лога - конкуренция за ресурсы
источник

AZ

Anton Zadorozhniy in Data Engineers
Про разомкнутые тома (BCV) я написал выше
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну и потом если ваш CDC не поддерживает DDL (как дебезиум для оракла) - надо как-то его ещё доставать
источник

А

Алексей in Data Engineers
cdc для оракла требует еще базовую лицензию GG
источник

A

Alex in Data Engineers
Anton Zadorozhniy
Page cache, но это не делает чтение индексным, это все равно скан
скан то скан, но там же внутри паркета тоже по страницам разбито и тот же min/max по колонке хранится отдельно, поэтому многие страницы можно будет пропускать
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
скан то скан, но там же внутри паркета тоже по страницам разбито и тот же min/max по колонке хранится отдельно, поэтому многие страницы можно будет пропускать
я писал что pdo + partition elimination есть конечно, но это все равно скан
источник

A

Alex in Data Engineers
да, всё равно скан, пускай и с пропусками
источник

A

Alex in Data Engineers
индексов внутри нету, они только вроде в carbon data из таких форматов присутсвуют
источник

A

Alex in Data Engineers
вот тут сразу и вопрос:

кто-либо пробовал этот carbon data в продакшене?
https://carbondata.apache.org/
источник

AZ

Anton Zadorozhniy in Data Engineers
в куду вот есть primary key index, но мы все знаем где куду, хнык
источник

AZ

Anton Zadorozhniy in Data Engineers
вторичные индексы в аналитике вообще редкость, вендорам сложно обосновать всю эту машинерию для редких кейсов, вон в snowflake например нет индексов
источник