Size: a a a

2021 July 20

А

Алексей in Data Engineers
Что перспективней с точки зрения развития технологии: MPP базы, где данные жестко привязаны к вычислительной ноде или системы по типу Spark, где можно стянуть данные по сети, если их рядом нет?
источник

AZ

Anton Zadorozhniy in Data Engineers
перспективно для кого?
источник

e

er@essbase.ru in Data Engineers
второе , так как вычислительный кластер может обслуживать различные стораджи
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
В MPP базах не всегда привязка к ноде
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Это скорее даже исключение и кривизна реализации
источник

А

Алексей in Data Engineers
разве GP или TD могут считать данные с другой ноды на 1 шаге запроса?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Хз как у терадаты, а запросы в гринплам вообще работает через мастер ноду, которая является нодой инициатором... В вертике все ноды могут быть инициатором
источник

А

Алексей in Data Engineers
всмысле мастер нода форвардит запрос на ноду с нужным куском данных? Разве это не получается как раз привязка данных к ноде?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Запрос не форвардится, по крайне мере, точно не в вертике. Выстраивается план запроса и идет расчет. Привязка идет не к ноде, а к данным, вся суть mpp в целом... Например, у вертике есть облачный режим eon, у вас данные в баккетах, а ноды это тупо компьют
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Опять таки, у вас есть репликация, сегодня вы считаете на одной ноде, завтра на другой. У гринплам так точно работает, а вот в вертике это работает только при потери ноды
источник

M

Max in Data Engineers
Есть вопросик по debezium. Я увидел на сайте саппорт фичи по маскировке данных, но не нашел примеров использования. Кто-то сталкивался с этим?

или лучше сделать отдельный процессор для маскировки данных и писать в спец топик?
источник

AZ

Anton Zadorozhniy in Data Engineers
да, в MPP базах (прогрессивных) давно весь сторадж виртуальный, он сам там решает откуда данные брать, иногда может перекладывать с медленного на более быстрый
источник

AZ

Anton Zadorozhniy in Data Engineers
в терадате тоже на каждой ноде работает PE (Parsing Engine) который с клиентами разговаривает, терадата вообще P2P система, нет специальных узлов, все равноправны
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
как и вертика, получается
источник

AZ

Anton Zadorozhniy in Data Engineers
Для бареметала это имеет больше смысла чем выделение отдельных узлов под разные роли
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
ну такое поведение - это кривая реализация, например как у гп
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
к слову, я.облако вроде как обещало сделать мастер гп отказоустойчивым
источник

AZ

Anton Zadorozhniy in Data Engineers
TD может и с объектного стораджа зачитать на первом шаге, как и куча других баз
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
кстати, трино/престо по сути аналогично работают
источник

А

Алексей in Data Engineers
у всех получается похожие принципы работы, и разница в деталях реализации
источник