Size: a a a

Архитектура данных

2020 February 08

НИ

Николай Ижиков in Архитектура данных
er@essbase.ru
Народ, а есть ли достойная альтернатива Informartica из OpenSourceSoftware в части логирования , управления заданиями , их связями в цепочку и прочими зависимостями ?
Не знаком с Informatica, но описание звучит похоже на storm -
https://storm.apache.org/
источник

RM

Rustem Mannanov in Архитектура данных
er@essbase.ru
Народ, а есть ли достойная альтернатива Informartica из OpenSourceSoftware в части логирования , управления заданиями , их связями в цепочку и прочими зависимостями ?
Альтернатив нет. Но то что вам важно есть в airflow, если я правильно понял вводные.
источник
2020 February 09

e

er@essbase.ru in Архитектура данных
Народ, а что вы дамаете насчет автоматизации тестирования в хранилище ?
вообще есть какие нибудь концепции которые позволяют контролировать разработку ?
источник

DT

Denis Troyan in Архитектура данных
er@essbase.ru
Народ, а что вы дамаете насчет автоматизации тестирования в хранилище ?
вообще есть какие нибудь концепции которые позволяют контролировать разработку ?
участвовал в пилоте кастомной разработки в консалтинге. Схема следующая: на каждую сущность\таблицу создается набор тесткейсов в виде SQL-запроса слева и скаляра/запроса справа + ручной регресс с эталоном. Каждый объект связан с ETL джобом. При тестировании объекта запускакется джоб, прогоняются тест-кейсы. Тест-кейсы актуализируются (пополняются или удаляются) по мере разработки и анализа. С бизнес-заказчиков требуются тест-кейсы перед взятием задачи в работу. Системные аналитики переводят эти кейсы в SQL, и добавляют в список тест-кейсов на соответствующий объект. Как-то так
источник

e

er@essbase.ru in Архитектура данных
как я это понял )
  в SQL повторяется логика трансоформации пакета ETL
 причем с двух сторон - как входные данные так и выходные
что осталось не понятным :
у выс были эталонные данные для тестов ?
вы проверяли бизнес-качество трансформаци ?
источник

DT

Denis Troyan in Архитектура данных
er@essbase.ru
как я это понял )
  в SQL повторяется логика трансоформации пакета ETL
 причем с двух сторон - как входные данные так и выходные
что осталось не понятным :
у выс были эталонные данные для тестов ?
вы проверяли бизнес-качество трансформаци ?
1) нет, логика не полностью повторяется - зачем? В SQL есть только бизнес- и технические тест-кейсы, каждый из которых отражает определенное бизнес- или техническое требование, или обязательное условие работы алгоритма. Например, если колонка А > 0, то и колонка B > 0. Такое требование трансформируется в тест-кейс: не должно возвращаться строк по запросу select * from table where A > 0 and B <= 0
2) эталон использовался для регресса или для точечной проверки, готовился или вручную в эксельке и заливался в базу тулы для тестирования, или загружался по дблинку из двх. А маленькие эталоны всегда можно реализовать как SQL-запрос “слева”: select 1111 as col_key, ’expected_value’ as col_val from dual, и сравнивать его в результатом выполнения запроса select col_key, col_val from table where col_key = 1111
3) что такое бизнес-качество?
источник

e

er@essbase.ru in Архитектура данных
Denis Troyan
1) нет, логика не полностью повторяется - зачем? В SQL есть только бизнес- и технические тест-кейсы, каждый из которых отражает определенное бизнес- или техническое требование, или обязательное условие работы алгоритма. Например, если колонка А > 0, то и колонка B > 0. Такое требование трансформируется в тест-кейс: не должно возвращаться строк по запросу select * from table where A > 0 and B <= 0
2) эталон использовался для регресса или для точечной проверки, готовился или вручную в эксельке и заливался в базу тулы для тестирования, или загружался по дблинку из двх. А маленькие эталоны всегда можно реализовать как SQL-запрос “слева”: select 1111 as col_key, ’expected_value’ as col_val from dual, и сравнивать его в результатом выполнения запроса select col_key, col_val from table where col_key = 1111
3) что такое бизнес-качество?
»3) что такое бизнес-качество?
скорее всего это относится  к ежедневным контролям выходящих данных (не к разработке )
например , если  есть объем то должна быть и выручка
источник

DT

Denis Troyan in Архитектура данных
er@essbase.ru
»3) что такое бизнес-качество?
скорее всего это относится  к ежедневным контролям выходящих данных (не к разработке )
например , если  есть объем то должна быть и выручка
это покрывается тест-кейсами из пункта 1
источник

DT

Denis Troyan in Архитектура данных
Data Quality
источник

DT

Denis Troyan in Архитектура данных
Тест-кейсы состоят из проверок DQ + кастомные проверки, которые в DQ часто не нужны, потому что проверки технические, и на них бизнес среагировать никак не сможет
источник

AU

Alexander Utyugov in Архитектура данных
Это похоже на DQ мониторинг. Потому как даже верные по структуре, но противоречивые по сути данные поступающие в хранилище обессмысливают хранилище. GIGO не отменяли.
А бизнес если будет знать что такие данные льются будут искать источник совместно с ИТ. Это может быть быть как техническая ошибка (например на ETL  не корректное преобразование) и тогда исправлять ИТ, а может неправильная инструкция или не проинструктированный персонал (который или не заполняет атрибуты или делает это некорректно) и тогда исправлять бизнесу.
источник

DT

Denis Troyan in Архитектура данных
Alexander Utyugov
Это похоже на DQ мониторинг. Потому как даже верные по структуре, но противоречивые по сути данные поступающие в хранилище обессмысливают хранилище. GIGO не отменяли.
А бизнес если будет знать что такие данные льются будут искать источник совместно с ИТ. Это может быть быть как техническая ошибка (например на ETL  не корректное преобразование) и тогда исправлять ИТ, а может неправильная инструкция или не проинструктированный персонал (который или не заполняет атрибуты или делает это некорректно) и тогда исправлять бизнесу.
Я сейчас не очень понял, вы за меня, или нет:)
источник

AU

Alexander Utyugov in Архитектура данных
Больше за результат:)
источник
2020 February 10

DT

Denis Troyan in Архитектура данных
ого, где пропиарили?
источник

S

Shadilan R16 MU Rostov in Архитектура данных
В NiFi
источник

БП

Богдан Помазан in Архитектура данных
Вопрос глобальный:
На рынке есть спрос на построение dwh да так чтобы был интерфейс по данным + дашборды/bi + настройка etl/стримов как отдельная услуга?
источник

VS

Vladislav 👻 Shishkov in Архитектура данных
100500 интеграторов же...
источник

БП

Богдан Помазан in Архитектура данных
А то продаем системы лояльности торговым сетям и понимаю что даже крупные не видели ничего кроме 1с
источник

БП

Богдан Помазан in Архитектура данных
Богдан Помазан
А то продаем системы лояльности торговым сетям и понимаю что даже крупные не видели ничего кроме 1с
Если что Украина
источник

e

er@essbase.ru in Архитектура данных
Богдан Помазан
Если что Украина
продавайте им услугу "сократим расходы , показав где деньги проее" - так купят
- а странный тул ... кому нужен ? 😂
источник