Телеграмм чат группы hadoopusers страница 4377

после обновления на спарк 3.1 стриминг с кафки стал работать намного медленнее (было меньше минуты, стало больше пяти). менял параметры, которые указаны здесь https://spark.apache.org/docs/latest/ss-migration-guide.html, не помогло. сталкивался кто-то с таким?

источник

19:42пожаловаться #9

Renarde in Data Engineers

вопрос по Datadog (а вдруг кто использует) - я пытаюсь использовать python API для отправки метрик. При вызове api.Metric.send выдает корректный ответ:


{'status': 'ok'}

но метрик в UI я не вижу - с чем это может быть связано?

источник

20:45пожаловаться #10

Alexandr Khan in Data Engineers

Всем привет. Читаю про интеграцию spark stream с kafka, есть 2 подхода - через receiver и direct. Про direct и его преимущества много написано, а у receiver есть вообще какие-то плюсы, или про него уже можно забыть?

источник

22:35пожаловаться #11

2021 October 20

Nikolay in Data Engineers

Подскажите ,а как устроена интеграция даьабрикс кластера с aws. В частности с s3. Ему же нужен пользователь aws, что бы читать и писать файлы и должны как то права настраиватся. Покликал на настройки кластера - не смог там найти ,где пользователь прописывается и в aws не вижу роль для кластера .

источник

08:58пожаловаться #12

Anton Zadorozhniy in Data Engineers

https://databricks.com/blog/2019/03/26/introducing-databricks-aws-iam-credential-passthrough.html

Databricks

Introducing Databricks AWS IAM Credential Passthrough - The Databricks Blog

Read about how cloud providers like AWS provide a rich set of features for Identity and Access Management (IAM) such as users, roles, and policies.

источник

09:04пожаловаться #13

Renarde in Data Engineers

Это очень сложный путь, так надо делать только в совсем advanced use-cases

источник

09:06пожаловаться #14

МК

Михаил Кулаков... in Data Engineers

спам

источник

09:07пожаловаться #15

Renarde in Data Engineers

Более простой такой:
1. Датабрикс может использовать заданный instance profile при запуске ec2 инстансов
2. Этот instance profile наделён правами в соответствии с его IAM ролью, эта роль имеет доступы в заданный S3 bucket / набор бакетов
3. На стороне датабрикс чтобы не прописывать каждый раз длинные имена бакетов, лучше всего использовать маунты в dbfs, они так же добавляют strong consistency

Вот тут дока по настройке:
- https://docs.databricks.com/administration-guide/cloud-configurations/aws/instance-profiles.html
- https://docs.databricks.com/data/data-sources/aws/amazon-s3.html

Databricks

Secure access to S3 buckets using instance profiles | Databricks on AWS

Learn how to set up instance profiles and use them in Databricks to access S3 buckets securely from your Databricks clusters.

источник

09:13пожаловаться #16

Renarde in Data Engineers

И лучше всего всю эту инфраструктуру настраивать через tf провайдер:

https://registry.terraform.io/providers/databrickslabs/databricks/latest/docs

источник

09:15пожаловаться #17

ПФ

Паша Финкельштейн... in Data Engineers

А strong consistency это какой?

источник

09:28пожаловаться #18

ПФ

Паша Финкельштейн... in Data Engineers

Strict serializable? Linearizable?

источник

09:29пожаловаться #19

Nikolay in Data Engineers

спасибо . вроде так и настроенно. буду читать линку, чтобы понять. есть как раз эти instance profiles. посмотрю как на инстансы ec2 они отражаются. у меня проблема, что из датабрикса не видно s3, даже который я в тестовых целях сделал паблик.

источник

09:35пожаловаться #20