Size: a a a

2019 November 05

t

tenKe in Data Engineers
сравниваешь numInputRows с maxOffsetsPerTrigger
источник

ME

Max Efremov in Data Engineers
tenKe
но вообще есть метод гораздо более простой (если тебе надо качественно понять, есть лаг или нет)
Он же всегда есть, спарк не мгновенно вычисляет всё)
источник

t

tenKe in Data Engineers
ну в мире спарка лаг это скорее пара часов, нежели пара секунд
источник

AC

Alexander Chermenin in Data Engineers
tenKe
ну в мире спарка лаг это скорее пара часов, нежели пара секунд
какой у вас печальный мир)
источник

R

Renarde in Data Engineers
всем привет, вопрос по мониторингу  AWS S3 - может кто сталкивался с такой штукой.
Вкратце - есть s3 path, в которую пишется стрим, хочется добавить простое правило в CloudWatch - если данные не заливаются последние X минут, триггернуть алерт. как это проще всего сделать
источник

AZ

Anton Zadorozhniy in Data Engineers
Renarde
всем привет, вопрос по мониторингу  AWS S3 - может кто сталкивался с такой штукой.
Вкратце - есть s3 path, в которую пишется стрим, хочется добавить простое правило в CloudWatch - если данные не заливаются последние X минут, триггернуть алерт. как это проще всего сделать
там вроде дименшен только по бакету, но можно сделать фильтр по префиксу, и использовать метрику для бакета и конкретного фильтра
источник

R

Renarde in Data Engineers
а вот вопрос чем заполнять CloudWatch (как метрики то отсылать)
Я вижу такие опции:
- навесить на бакет SNS нотификации -> отправлять их в SQS -> лямбдой отдавать в CloudWatch
- CloudTrail -> логи -> CloudWatch
- И еще есть какие-то put-метрики, описанные в разделе мониторинга в самом S3
источник

AZ

Anton Zadorozhniy in Data Engineers
вот эти метрики на бакете настроить можно https://docs.aws.amazon.com/AmazonS3/latest/dev/cloudwatch-monitoring.html#s3-request-cloudwatch-metrics
источник

AZ

Anton Zadorozhniy in Data Engineers
там конечно best effort в плане доставки, но у меня не было проблем
источник

S

Serg Slipushenko in Data Engineers
Есть тут такие, ктот крутит спарк на k8s? Может кто нибудь сталкивался с задачей сбора логов со спарк экзеков в таком случае? Дока говорит, логи на подах есть, а дальше придумайте сами)
Логов много и пушнуть их в ELK не вариант
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
Есть тут такие, ктот крутит спарк на k8s? Может кто нибудь сталкивался с задачей сбора логов со спарк экзеков в таком случае? Дока говорит, логи на подах есть, а дальше придумайте сами)
Логов много и пушнуть их в ELK не вариант
Fluentd/Fluentbit и если надо по ним искать то нужен все-таки какой-то индекс, просто там можно не хранить на большую глубину
источник

S

Serg Slipushenko in Data Engineers
Не втащит efk... Юзаем его для всего остального
источник

S

Serg Slipushenko in Data Engineers
Но логов со спарка ооооочень много может прилетать
источник

AZ

Anton Zadorozhniy in Data Engineers
тут вам либо надо их читать либо нет, если надо - собирайте, если нет - удаляйте ))
источник

AZ

Anton Zadorozhniy in Data Engineers
как вариант сделать ручку, чтобы собирать по запросу, или фильтровать где-то в сайдкаре, но это как-то в гамаке и стоя
источник

AZ

Anton Zadorozhniy in Data Engineers
если вам для аудита то можно затулить пакетное копирование в С3 после джоба, но если читать - придется куда-то поднимать
источник

S

Serg Slipushenko in Data Engineers
Вот именно так и сделано сейчас) но решение так себе)
источник

S

Serg Slipushenko in Data Engineers
Anton Zadorozhniy
если вам для аудита то можно затулить пакетное копирование в С3 после джоба, но если читать - придется куда-то поднимать
Не успеем скопировать - нет экзека - нет пода
источник

S

Serg Slipushenko in Data Engineers
В темплату экзека пока нельзя докинуть кастомщины
источник

AZ

Anton Zadorozhniy in Data Engineers
да, есть такое ограничение
источник