подскажите, какие существуют "наилутшие" практики в перепроцессинге сырых данных в DataLake?
вот валится мне из Кафки поток json'ов - я его приземляю в parquet как текстовый столбец через spark structured streaming (это как говорят нынче "бронза").
другим SSS-джобом я парсю "бронзу" согласно схеме (определенной контрактом с поставщиком данных).
в какой-то момент выясняется, что схема изменилась (вот неожиданность-то!!!). либо я где-то напортачил в трансформациях...
и вот я судорожно поправил код джоба, передеплоил его! а что сейчас сделать с некорректными данными от прошлой версии джоба?
Загибаем пальцы: 3 копии данных в кафке, потом 3 копии в каком то сыром паркете, от 3 до 4 копий (а уж если есть бекап витрин, то множитель зашкаливает ) на следующем уровне :)
Основы курса - как сделать бигдату :)
Если серьёзно, если в потоке нет версии формата того, что летит - можно вроде изголяться как хочется. Включая проверку каким нить гоблиным данных на валидность модели в промежутке