Size: a a a

Архитектура данных

2018 September 20

MV

Mitya Volodin in Архитектура данных
Частый кейс - есть ИНН и Наименование юрлица. И все, остальное - ручной ввод
источник

MV

Mitya Volodin in Архитектура данных
Можно по базе налоговой вычислять недостающую информацию
источник

MV

Mitya Volodin in Архитектура данных
Можно по открытым ресурсам валидировать некоторые
источник

MV

Mitya Volodin in Архитектура данных
Можно купить доступ в спарк :)
источник

PG

Paul Golubev in Архитектура данных
У ИП и юл ключ это ОГРН, а не ИНН
источник

MV

Mitya Volodin in Архитектура данных
Ну тут сэйм шит, от ошибок все равно никто не застрахован
источник

MV

Mitya Volodin in Архитектура данных
Если источник информации не проводит контроль качества данных, то все равно придется закладываться на ошибки
источник

MV

Mitya Volodin in Архитектура данных
И кстати, fyi, не думаю, что это бомбанет с базой юл, но для хабов с миллиардами значений опасно использовать некоторые виды хэшэй
источник

RK

Roman Kolchin in Архитектура данных
Denis Troyan
Все же за уникальность клиентов должны отвечать отдельные сервисы
Спорно. Вот тут хорошо разобрано на примере CRM https://blog.hflabs.ru/pochiemu-v-siebel-crm-nie-poluchaietsia-viesti-iedinuiu-bazu-kliientov/. Написано людьми заинтересованными в продаже своего CDI решения, но доводы очень разумные имхо.
источник

e

er@essbase.ru in Архитектура данных
Тоже твои клиенты на пресейл 😂?
источник

RK

Roman Kolchin in Архитектура данных
er@essbase.ru
Тоже твои клиенты на пресейл 😂?
Нет. Я ж когда-то MDM занимался. Имею представление ху из ху.
источник

AU

Alexander Utyugov in Архитектура данных
Mitya Volodin
Не может, у них количество цифр разное. Юрлица 10, а физики 12. Но если ошибки нет
У предпринимателя используется ИНН физика который предприниматель.
То есть клиент физик и этот же физик пришедший как ИП будут иметь один ИНН, а фактически это два клиента. Физик и ИП (перефизик - неодоорганизация)
источник

AU

Alexander Utyugov in Архитектура данных
Paul Golubev
Да, ИНН не уникальны, но по закону должны. ИНН достать гораздо легче, чем СНИЛС, поэтому был сделан выбор в пользу ИНН :)
Строгость закона ... в общем
Учитывайте разболбайство на стороне ФНС + 3-5% ошибок ручного ввода на фронтах (контрольные суммы редко считают)
И умножаем на цену ошибки.
Если это работа тех поддержки это одна сумма, а если это взаимный доступ к банковским счетам - то сумма другого порядка.
источник
2018 October 11

e

er@essbase.ru in Архитектура данных
источник

MV

Mitya Volodin in Архитектура данных
Спс
источник
2018 October 19

MV

Mitya Volodin in Архитектура данных
Коллеги, всем привет!

Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama
Буду признателен за отзывыв, особенно по двум последним
источник

e

er@essbase.ru in Архитектура данных
источник

RK

Roman Kolchin in Архитектура данных
источник
2018 November 12

ПБ

Павел Белов in Архитектура данных
коллеги, добрый день
посоветуйте, пожалуйста, стоящую литературу по построению хранилищ данных

есть практическая задача: перевести несколько массивов данных из access/excel в некую единую систему, попутно сформулировать методологию в части:
1. ввода первичных данных
2. хранения их в таблицах
3. преобразования
4. сбора отчетности
источник

MV

Mitya Volodin in Архитектура данных
Павел Белов
коллеги, добрый день
посоветуйте, пожалуйста, стоящую литературу по построению хранилищ данных

есть практическая задача: перевести несколько массивов данных из access/excel в некую единую систему, попутно сформулировать методологию в части:
1. ввода первичных данных
2. хранения их в таблицах
3. преобразования
4. сбора отчетности
Если данных мало, и так и будет, или данных много но процессов мало и они понятные, то можно посмотреть на Dimensional Modeling от Kimball’a
источник