Телеграмм чат группы hadoopusers страница 4289

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 October 04

AE

Alexey Evdokimov in Data Engineers

сравнивать частичные сеты — дурная задача. в общем виде плохо решается. нужно знать природу данных, чтобы советовать более эффективный способ

источник

19:21пожаловаться #1

ПФ

Паша Финкельштейн... in Data Engineers

Ну а дальше понятно - льём дифы, включаем морж он рид

источник

19:22пожаловаться #2

AE

Alexey Evdokimov in Data Engineers

мну когда-то делал сверялку платежей для сбер <-> операторы большой тройки, там естественным ключом был номер телефона, конечно. по нему восстанавливался лог и дифф достаточно просто строился

источник

19:24пожаловаться #3

AE

Alexey Evdokimov in Data Engineers

если естественного ключа нет, то возможны варианты

источник

19:24пожаловаться #4

ИК

Иван Калининский... in Data Engineers

Если нужно выбрать только новые и обновлённые записи из источника (а я так думаю, что именно с целой таблицей источником приходится сравнивать снепшот), то самый наивный способ - исключить существующие записи антиджоином по первичном ключу с обеих сторон
Source left anti join target on (primary, key, fields)
Union
Target left anti join source on (primary, key, fields)

Так получим из первого подзапроса записи на вставку из второго - на удаление. Соответственно, можно добавить поле с константными значениями, которые промаркируют записи по этим двум категориям

источник

19:30пожаловаться #5

AE

Alexey Evdokimov in Data Engineers

если ключа нету, то проще всего хеш записи сравнивать

источник

19:32пожаловаться #6

AE

Alexey Evdokimov in Data Engineers

но эжто чудовищно неэффективно

источник

19:32пожаловаться #7

ИК

Иван Калининский... in Data Engineers

Антиджоины можно заменить на union + groupBy primary, key, fields + having count(1)=1

источник

19:32пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Apache “чудовищно неэффективно” Spark

источник

19:34пожаловаться #9

ИК

Иван Калининский... in Data Engineers

Чтобы сделать эффективнее, надо знать точнее, с чем нужно работать.
В идеале CDC должна приносить готовую дельту, только дедуплицировать, и чилить))

источник

19:35пожаловаться #10

ИК

Иван Калининский... in Data Engineers

Можно просто MR

источник

19:36пожаловаться #11

AE

Alexey Evdokimov in Data Engineers

источник

19:37пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

this

источник

19:40пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Обычно считалки дельты или снапшотов делаются полностью на метаданных один раз

источник

19:40пожаловаться #14

K

Kate in Data Engineers

Ребята, спасибо! Боюсь показаться профаном, но как поняла. Все это использование нативных Spark, Hive и то что расчет дельт это неэффективно. Однако, неужели эти новомодные фреймворки Delta Lake, Iceberg не спасают?

источник

19:42пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Дельта и друзья нужны для другой стороны, чтобы изменения можно было накатить и получить копию текущего состояния в источнике

источник

19:44пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Вычислять дельту кроме как построчным сравнением нельзя, это затратно везде (но на спарке особенно)

источник

19:45пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Спасают, конечно. И кастомные фреймворки (как их ни назови), спасают. Но для такого их использования нужно разбираться, что менять, допиливать под свой use case. Скорее всего, проще и дешевле окажется пересмотреть архитектурное решение

источник

19:46пожаловаться #18

AE

Alexey Evdokimov in Data Engineers

если у вас привязка к спарку по требованиям, и нет иных вариантов, попробуйте как-то переформулировать задачу, чтобы подойти к ней с какой-то другой стороны

источник

19:53пожаловаться #19

K

Kate in Data Engineers

Мы пока на старте, поэтому рассматриваем все варианты. И тут либо показываем, что построение дельт в виду архитектуры hadoop это дорого и больно и лучше пересмотреть архитектурное решение, либо ищем обходные пути

источник

19:57пожаловаться #20