Size: a a a

2021 October 19

ПФ

Паша Финкельштейн... in Data Engineers
Партнёрские воркшопы/обсуждения не писали, да. Я так понимаю что это способ стимулироват ьлюдей на них ходить.
источник

ПФ

Паша Финкельштейн... in Data Engineers
Мне кажется GraphQL по EAV ничем не поможет, нет? А вот гремлин можно попробовать :)
источник

N

Nikita Blagodarnyy in Data Engineers
ну а как сходить на 2 сессии одновременно?
источник

ИК

Иван Калининский... in Data Engineers
У тебя же два уха? Вот только так))
источник

ПФ

Паша Финкельштейн... in Data Engineers
Я чесгря не знаю, я за всю конфу вообще ничего не посмотрел, к сожалению
источник

ПФ

Паша Финкельштейн... in Data Engineers
А там в параллель что ли партнёрские штуки шли?
источник

ИК

Иван Калининский... in Data Engineers
С докладами помогало попеременное включение на 2x
источник

N

Nikita Blagodarnyy in Data Engineers
зато показал
источник

ТК

Тарас Кондратюк... in Data Engineers
после обновления на спарк 3.1 стриминг с кафки стал работать намного медленнее (было меньше минуты, стало больше пяти). менял параметры, которые указаны здесь https://spark.apache.org/docs/latest/ss-migration-guide.html, не помогло. сталкивался кто-то с таким?
источник

R

Renarde in Data Engineers
вопрос по Datadog (а вдруг кто использует) - я пытаюсь использовать python API для отправки метрик. При вызове api.Metric.send выдает корректный ответ:

{'status': 'ok'}

но метрик в UI я не вижу  - с чем это может быть связано?
источник

AK

Alexandr Khan in Data Engineers
Всем привет. Читаю про интеграцию spark stream с kafka, есть 2 подхода - через receiver и direct. Про direct и его преимущества много написано, а у receiver есть вообще какие-то плюсы, или про него уже можно забыть?
источник
2021 October 20

N

Nikolay in Data Engineers
Подскажите ,а как устроена интеграция даьабрикс кластера с aws. В частности с s3. Ему же нужен пользователь aws, что бы читать и писать файлы и должны как то права настраиватся. Покликал на настройки кластера  - не смог там найти ,где пользователь прописывается и в aws не вижу роль для кластера .
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

R

Renarde in Data Engineers
Это очень сложный путь, так надо делать только в совсем advanced use-cases
источник

МК

Михаил Кулаков... in Data Engineers
спам
источник

R

Renarde in Data Engineers
Более простой такой:
1. Датабрикс может использовать заданный instance profile при запуске ec2 инстансов
2. Этот instance profile наделён правами в соответствии с его IAM ролью, эта роль имеет доступы в заданный S3 bucket / набор бакетов
3. На стороне датабрикс чтобы не прописывать каждый раз длинные имена бакетов, лучше всего использовать маунты в dbfs, они так же добавляют strong consistency

Вот тут дока по настройке:
- https://docs.databricks.com/administration-guide/cloud-configurations/aws/instance-profiles.html
- https://docs.databricks.com/data/data-sources/aws/amazon-s3.html
источник

R

Renarde in Data Engineers
И лучше всего всю эту инфраструктуру настраивать через tf провайдер:

https://registry.terraform.io/providers/databrickslabs/databricks/latest/docs
источник

ПФ

Паша Финкельштейн... in Data Engineers
А strong consistency это какой?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Strict serializable? Linearizable?
источник

N

Nikolay in Data Engineers
спасибо . вроде так и настроенно. буду читать линку, чтобы понять. есть как раз эти instance profiles. посмотрю как на инстансы ec2 они отражаются. у меня проблема, что из датабрикса не видно s3, даже который я в тестовых целях сделал паблик.
источник