Size: a a a

2021 October 18

AE

Alexey Evdokimov in Data Engineers
от пословного перевода очень больно, не надо так делать
источник

A

Aleksey in Data Engineers
ну добавьте конструктива - допишу, перформулирую.  Можете в личку.
источник

AE

Alexey Evdokimov in Data Engineers
я бесплатным редактором не работаю. бесплатно только советы даю.
например, «не умеешь писать на техническом английском — тренируйся на кроликах. а ещё побольше читай носителей.»
источник

АК

Александр Кунцевич... in Data Engineers
Администратор, администратору рознь. Какой сервер, какие задачи. Хотя, здесь, думаю Вы не найдете. Это не те люди :)
источник

A

Aleksey in Data Engineers
Простите, дальше спор на таком уровне без меня.
источник
2021 October 19

MI

Mark Ifraimov in Data Engineers
Коллеги, добрый день извините что не по теме, у кого нибудь есть опыт перехода с 2 мониторов на 1 ultrawide?
источник

DT

Dmitry Titov in Data Engineers
Пользуюсь ultrawide (даже двумя, мне нравиться)
источник

D

Dmitriy in Data Engineers
двумя?
источник

D

Dmitriy in Data Engineers
пользуюсь одним, хватает
источник

DT

Dmitry Titov in Data Engineers
Друг над другом (старый переехал наверх)
источник

D

Dmitriy in Data Engineers
крут
источник

ПФ

Паша Финкельштейн... in Data Engineers
Так а фиг ли, спарком там три строчки )
источник

ПФ

Паша Финкельштейн... in Data Engineers
Зачем? Надо копиэдиторов просить переделать!
источник

РБ

Руслан Бикмаев... in Data Engineers
Подскажите, как вы относитесь к бесчеловечной кастрации мусора из сырых данных ?
У нас в поступающих данных были обнаружены 4 строки с датами операций на полгода-год вперед. В операционной базе и в приложении не настроены ограничения ручного ввода. За 7 лет из 10 млрд строк. Я забросил в общий чат предложение дропать эти строки, предварительно скопировав в отдельную таблицу looking2future.
На что услышал кучу эмоциональных сентенций от части коллег.
Смысл переноса-удаления, снижение риска ошибок при инкременте, дублированном на неск. десятков витрин.
Как у вас с присмотром за качеством данных ?
источник

РП

Роман Пашкевич... in Data Engineers
В целом это всегда больно)
Но по нашему опыту, это выглядит примерно так.
Видишь какие то выбросы в данных.
Идешь в бизнес, уточняешь что это. Какая то аномалия, баг или фича процесса?
Либо согласовываешь фильтрацию таких аномалий с бизнесом, либо волевым решением на уровне аналитик*архитектор.
Итого: допиливаешь фильтры в витринах, либо на более ранних "сырых" уровнях.
Или, если это какая то фича процесса, и данные считаются валидными. Пилишь обработку этих данных, чтобы не ломались витрины.
источник

N

Nikita Blagodarnyy in Data Engineers
Ну как бэ это зависит от семантики ваших данных. Может быть это прогнозы какие-то и будущие даты - это норма. Я вот высекаю все, что старше 2105 года.
источник

N

Nikita Blagodarnyy in Data Engineers
Что в сентенциях-то было?
источник

РБ

Руслан Бикмаев... in Data Engineers
"Данные удалять нельзя"
источник

A

Aleksey in Data Engineers
в слое сырых данных их лучше оставить как есть. Дальше у вас могут быть настроены процессы DQ, которые будут фильтровать данные не соответвующие DQ правилам (в вашем случае не корректная дата), а после уже расситываться витрины.
Отфильтрованные записи можно складывать в отдельную таблицу для последующего разбора Data steward
источник

N

Nikita Blagodarnyy in Data Engineers
А плодить 100500 партиций по килобайту на фейковые даты из 33567 года можно.
источник