Size: a a a

2020 October 08

AZ

Anton Zadorozhniy in Data Engineers
Anton Alekseev
Тут скорее интересует вопрос, выступает ли такой спорный вопрос на собесе редфлагом у ТС
на роли где нужно архитектурить - однозначно флажок
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
хдфс по семантике таки всё же ФС. а вот с3 не является таковой.
ADLSv2?
источник

Ж

Жмака in Data Engineers
Еще загвоздка. Мне нужно сделать executable контейнер для питоновской аппликации с cli аргументами, поскольку внутри аппликации есть парсер аргументов. Код такой:

PYTHONPATH=optimizer_viewability
python3 -m optimizer_viewability --model-name Viewability --vendor-name IAS --environment staging --running-folder 2020_10_06_18

В докерфайле мне нужно написать вот так? :

ENV PYTHONPATH=optimizer_viewability
ENTRYPOINT [ "python3", "-m", "optimizer_viewability"]
CMD ["--model-name", "Viewability", \
   "--vendor-name", "(VENDOR_NAME)", \
   "--environment", "(ENVIRONMENT)", \
   "--running-folder", "(RUNNING_FOLDER)"]

Или это неправильно? Docker run должен включать новые значения для этих аргументов
источник

Ж

Жмака in Data Engineers
Пробовал другие варианты - не переводит значение с docker run - e в сам контейнер😞
источник

A

Alex in Data Engineers
там вообще все интересно

https://docs.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity

судя по их же таблике по работе с метаданными они матчатся на file system, в отличии от других сторейджей =)
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
там вообще все интересно

https://docs.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity

судя по их же таблике по работе с метаданными они матчатся на file system, в отличии от других сторейджей =)
цель ADLSv2 - сделать такой объектный сторадж который можно использовать как drop-in replacement для HDFS ))
источник

ME

Max Efremov in Data Engineers
Mitya Volodin
Да, обычно ещё Python, хотя бы для автоматизации.
Но если копнуть в инфраструктуру - очень по-разному всё бывает )
У меня на 2х проектах со спарком только питон используется)
источник

A

Alex in Data Engineers
признаю что с adls не работал
поэтому не скажу ничего

опыт работы ограничивается с ceph/manta/s3/gs
и вот их ограничения совсем по другому смотрятся на фоне хдфс

возможно в adls и сделали вменяемый =) раз ты регулярно к нему апеллируешь
источник

AZ

Anton Zadorozhniy in Data Engineers
он хороший, да
источник

A

Alex in Data Engineers
так как работа с метаданными у вышеперечислинных при попытке натянуть на структуру фс смотрятся грустно
источник

A

Alex in Data Engineers
настолько что некоторые вещи в min.io не работают, так как они больше следовать posix подходу пытаются
а в aws s3 работают (тот же слеш на конце у “директорий”)
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
так как работа с метаданными у вышеперечислинных при попытке натянуть на структуру фс смотрятся грустно
потому что это не файловые системы)
источник

AZ

Anton Zadorozhniy in Data Engineers
но я понял что если разложить карточки с надписями сephfs, glusterfs, efs, azure files, s3, adls и попросить разделить на два класса, то сторонники "HDFS это файловая система" положат hdfs вместе с cephfs, gluster, efs
источник

AZ

Anton Zadorozhniy in Data Engineers
для меня на собесе это точно будет красным флажком
источник

YI

Yukari I in Data Engineers
Elijah
я слышал, что скалисты делятся на три условные категории:
- фп-челики (cats, scalaz, etc.)
- бывшие джависты, для которых фп-магия сложная и они просто хотят "slightly better Java"
- дата инженеры, которые спарк, хадуп и вот это все
скала и питон в основном. питон для прототипирования, а продакшн приложения в основном на скала и джава
источник

ME

Max Efremov in Data Engineers
Anton Zadorozhniy
но я понял что если разложить карточки с надписями сephfs, glusterfs, efs, azure files, s3, adls и попросить разделить на два класса, то сторонники "HDFS это файловая система" положат hdfs вместе с cephfs, gluster, efs
это ещё всё это знать надо) На практике у нас только с3 и был))
источник

A

Alex in Data Engineers
Anton Zadorozhniy
потому что это не файловые системы)
да, но в тоже время эти же операции норм на hdfs натягиваются
источник

АЖ

Андрей Жуков... in Data Engineers
Alex
настолько что некоторые вещи в min.io не работают, так как они больше следовать posix подходу пытаются
а в aws s3 работают (тот же слеш на конце у “директорий”)
источник

АЖ

Андрей Жуков... in Data Engineers
зачем по больному-то!
источник

VG

Vladimir Gavrilenko in Data Engineers
Anton Zadorozhniy
для меня на собесе это точно будет красным флажком
так у тебя первый критерий - это локальность и  POSIX-compliance
источник