Size: a a a

2019 October 16

M

Mi in Data Engineers
KrivdaTheTriewe
ребят, писали ли вы какие- либо DSL для data quality
Слишком общий вопрос какой-то, вопрос в способе описания конфига? На чём DSL написан должен быть? в каком формате данные для валидации поступают? и тд и тп
источник

DZ

Dmitry Zuev in Data Engineers
так писали или нет?
источник

K

KrivdaTheTriewe in Data Engineers
Mi
Слишком общий вопрос какой-то, вопрос в способе описания конфига? На чём DSL написан должен быть? в каком формате данные для валидации поступают? и тд и тп
gнет требований, хочу дать возможность пользователям  удобно описать правила бизнес валидации , ну тоесть какой-то конфиг, но с поддержкой валидации nested полей
источник

M

Mi in Data Engineers
KrivdaTheTriewe
gнет требований, хочу дать возможность пользователям  удобно описать правила бизнес валидации , ну тоесть какой-то конфиг, но с поддержкой валидации nested полей
Ну я описывал бизнес рулы через HOCON
источник

K

KrivdaTheTriewe in Data Engineers
Mi
Ну я описывал бизнес рулы через HOCON
вот я тоже думаю,есть пример?
источник

K

KrivdaTheTriewe in Data Engineers
меня даже не конкретная реализация интересует
источник

PK

Pavel Klemenkov in Data Engineers
KrivdaTheTriewe
gнет требований, хочу дать возможность пользователям  удобно описать правила бизнес валидации , ну тоесть какой-то конфиг, но с поддержкой валидации nested полей
Nested поля - шняга. Хочешь дата квалити, делай плоские таблицы
источник

M

Mi in Data Engineers
Pavel Klemenkov
Nested поля - шняга. Хочешь дата квалити, делай плоские таблицы
он про конфиг, а не про то как данные лежат
источник

K

KrivdaTheTriewe in Data Engineers
Pavel Klemenkov
Nested поля - шняга. Хочешь дата квалити, делай плоские таблицы
это скрыто от пользователя
источник

M

Mi in Data Engineers
KrivdaTheTriewe
вот я тоже думаю,есть пример?
так он полностью domain-specific, это же DSL
источник

M

Mi in Data Engineers
описывешь как требуется и всё
источник

O

Oleg in Data Engineers
коллеги, какие варианты сбора логов ярна есть кроме елк?
источник

AZ

Anton Zadorozhniy in Data Engineers
Oleg
коллеги, какие варианты сбора логов ярна есть кроме елк?
Fluentd + что хочешь для хранения и просмотра
источник

ЛР

Лев Рагулин in Data Engineers
KrivdaTheTriewe
gнет требований, хочу дать возможность пользователям  удобно описать правила бизнес валидации , ну тоесть какой-то конфиг, но с поддержкой валидации nested полей
На эту тему есть интересная поделка у амазон https://aws.amazon.com/ru/blogs/big-data/test-data-quality-at-scale-with-deequ/
источник

K

KrivdaTheTriewe in Data Engineers
Это уже под капотом у меня
источник

ЛР

Лев Рагулин in Data Engineers
KrivdaTheTriewe
Это уже под капотом у меня
Огонь. А в чем проблема дать инструмент пользователям ?
источник

VE

Vladimir E. in Data Engineers
У меня конечно предвзятое отношоние по теме DQ, но как у вас пользователи работают с правилами? Как их ищут и реиспользуют?
источник

VE

Vladimir E. in Data Engineers
Amazon Deequ это конечно хорошо пока у вас очень мало правил и аналитиков, но это конечно не далеко ушло от хранения правил в экселе в виде SQL query
источник

ЛР

Лев Рагулин in Data Engineers
Vladimir E.
Amazon Deequ это конечно хорошо пока у вас очень мало правил и аналитиков, но это конечно не далеко ушло от хранения правил в экселе в виде SQL query
Вся магия не в правилах и где их хранить а в наличии владельцев данных и методологий
источник

VE

Vladimir E. in Data Engineers
Владельцы данных у разных систем разные, а правила очень часто бывают одинаковыми. Есть оракл, хадуп и клауд, например, часто это разные люди
источник