Size: a a a

2021 June 14

AM

Almaz Murzabekov in Data Engineers
я что-то не понимаю тогда, там же сказано что user2 ничего не репроцессит. Хотя понимаю, что от такого достаточно зрелого продукта такой подставы не ожидаешь
источник

D

Dmitry in Data Engineers
да, похоже без репроцессинга. там ниже пояснение
In the vast majority of cases, this reconciliation happens silently, seamlessly, and successfully. However, in the event that there’s an irreconcilable problem that Delta Lake cannot solve optimistically (for example, if User 1 deleted a file that User 2 also deleted), the only option is to throw an error.
источник

D

Dmitry in Data Engineers
т.е. если user1 проапдейтил, удалил какие-то строки, то он помечает файлы где были эти строки невалидными в 00001.json
если user2 читал те файлы - он похоже кинет exception, если не читал, транзакцию можно комитить
источник

AM

Almaz Murzabekov in Data Engineers
А как без репроцессинга это возможно? Если пользователь 1 изменил состояние таблицы, юзер 2 обязан пересчитать данные после юзера1, иначе как обеспечить консистентоность данных?
источник

ME

Max Efremov in Data Engineers
Понимание map-reduce, базовое устройство хадупа, что такое даталейк и дата варехаус. Лямбда/каппа архитектуры, спарк
источник

D

Dmitry in Data Engineers
так же как оракл делает на уровне serializable, кидает exception unable to serialize transaction если видит что данные изменились, а транзакция пишущая.
правда в блоге странно что как пример только про deleted файл упоминается. ну может в блоге лишь самые простые вещи решили осветить
источник

.

._. in Data Engineers
Спасибо! Про архитектуры нужно наверстать еще
источник

AM

Almaz Murzabekov in Data Engineers
Ну хз, чёт. Почему вопрос такой возник, у нас на проде очень редко Джобса падает с ошибкой что файл на с3 не может найти
источник

AM

Almaz Murzabekov in Data Engineers
В транзакционом логе эти записи есть, но проблема в том что есть две Джоли, одна делает санитайз и вакуум, в то время как вторая Джоба делает мердж
источник

D

Dmitry in Data Engineers
да, у нас такое тоже наблюдается. причем бывает вылетает с сообщением что .json старый кто-то не нашел
выглядит что баг какой-то с кешированием. вроде похожий баг был зарегистрирован и пофикшен когда-то
источник

AM

Almaz Murzabekov in Data Engineers
Случаем нет ссылки на задачу в трекере?
источник

AM

Almaz Murzabekov in Data Engineers
Или где-то в публичном месте
источник

D

Dmitry in Data Engineers
я попозже поищу, где в нашей жире была ссылка. схожу не нашел
источник

ND

Nurdinov Denis in Data Engineers
Добрый день, коллеги!
Столкнулся с проблемой, что при работе потока в oozie он постоянно завершается с exit code 143. Я новичок в hadoope и не понимаю где копать. Подскажите пожалуйста.
источник

ND

Nurdinov Denis in Data Engineers
источник

N

Nail in Data Engineers
Падает по нехватке памяти скорее всего
источник

АР

Андрей Романов... in Data Engineers
может как-то через java_opts можно увеличить объем памяти, но нужно смотреть
источник

N

Nail in Data Engineers
Смотря что запускаете
источник

ND

Nurdinov Denis in Data Engineers
Запускается shell action, а в нем spark джоба
источник

N

Nail in Data Engineers
Ну я так и думал. Спарк джоба по памяти падает скорее всего. И скорее всего у вас перекос в данных. Это 90% случаев
источник