Size: a a a

2020 November 08

G

Gev in Data Engineers
Max Efremov
Со стейджингом, кстати, норм идея, мы сейчас так данные апсёртим из промежуточной
Ну я давно так делаю. Там есть нюансы но в целом рабочий вариант
источник

G

Gev in Data Engineers
Stanislav
А обратно надо забирать? Или цель просто выкинуть паркет куда-то?
Ну в общем да. Но забирается уже из других таблиц. Я специально разнес
источник

S

Stanislav in Data Engineers
Самое простое - переложить в цсв и через батчевую загрузку в пг залить
источник

S

Stanislav in Data Engineers
Оно и самое быстрое
источник

S

Stanislav in Data Engineers
Плюс атомарность
источник

S

Stanislav in Data Engineers
Если там апдейтов нет и надо только инсерт
источник

G

Gev in Data Engineers
Stanislav
Самое простое - переложить в цсв и через батчевую загрузку в пг залить
Не. Файлы нини. Нельзя. Безопастность такое решение не пропустит. И правильно. Так как тут тоже никаких гарантий что файл сформируется норм а потом ты добавляешь кучу доп шагов, каждый из которых может быть точкой отказа
источник

S

Stanislav in Data Engineers
Бигдата такая бигдата :)
источник

G

Gev in Data Engineers
Сформировать файл. Положить туда где есть место, переложить туда где есть место, проверить что читается, прочитать правильно и потом залить. Это пипец.
источник

S

Stanislav in Data Engineers
Ну да, аж целый мд5 вызвать)
источник

S

Stanislav in Data Engineers
Зато загрузка средствами пг исключает всю хрень, что может сделать спарк без нормального синка
источник

G

Gev in Data Engineers
Stanislav
Ну да, аж целый мд5 вызвать)
Так это надо вызвать. А что делать если не прочтется?
источник

ME

Max Efremov in Data Engineers
Gev
Не. Файлы нини. Нельзя. Безопастность такое решение не пропустит. И правильно. Так как тут тоже никаких гарантий что файл сформируется норм а потом ты добавляешь кучу доп шагов, каждый из которых может быть точкой отказа
Эх, как хорошо, что мы даже об этом не задумываемся 😅
источник

S

Stanislav in Data Engineers
На стороне спарка реализовать проверки на чтение. Что и разгрузит пг с продом
источник

G

Gev in Data Engineers
Да решить проблему можно. Вопрос - стоит ли оно того. Со стеджингом в постгре как то проще.
источник

G

Gev in Data Engineers
Да пускать пользователя к большим данным - это бяда. По хорошему пользователь должен работать в других изолированных системах с меньшим объёмом и большей доступностью а данные должны приходить в бигдата уже готовыми.
источник

G

Gev in Data Engineers
Нов компании бяда с глобальной архитектурой. Вот и приходиться кастылить
источник

G

Gev in Data Engineers
Вот кстати еще вопрос. А кто как хранит и менеджит метаданные? Apache atlas, cloudera navigator?
источник

S

Stanislav in Data Engineers
Гит+самопис
Кроме хадупа есть ещё системы вокруг
источник

ME

Max Efremov in Data Engineers
Gev
Вот кстати еще вопрос. А кто как хранит и менеджит метаданные? Apache atlas, cloudera navigator?
aws Glue catalog
источник