Size: a a a

2019 December 05

AS

Anton Shelin in Data Engineers
Aleksandr
нет коробочной поддержки zip-а, приходится костыли городить
а почему у вас зипы?
источник

AS

Andrey Smirnov in Data Engineers
Aleksandr
нет коробочной поддержки zip-а, приходится костыли городить
а просто binaryFiles и flatMap чем не подходит?
источник

A

Aleksandr in Data Engineers
Anton Shelin
а почему у вас зипы?
потому что есть некий sftp-сервер, на нем zip архивы, а внутри csv. И надо как-то это прочитать спарком. Либо придумать обходной путь
источник

ME

Max Efremov in Data Engineers
Aleksandr
потому что есть некий sftp-сервер, на нем zip архивы, а внутри csv. И надо как-то это прочитать спарком. Либо придумать обходной путь
а нельзя в hdfs распаковать?
источник

AS

Anton Shelin in Data Engineers
источник

AS

Anton Shelin in Data Engineers
гугл всемогущий
источник

A

Aleksandr in Data Engineers
Max Efremov
а нельзя в hdfs распаковать?
у нас нет hdfs :) у нас aws
источник

ME

Max Efremov in Data Engineers
s3
источник

ME

Max Efremov in Data Engineers
Можно распаковку на CodeBuild джобе запустить, через aws cli скопировать результаты в s3 и уже дальше через glue процессить
источник

ME

Max Efremov in Data Engineers
CodeBuild можно заменить на EC2 инстанс или ещё что-то, по желанию
источник

A

Aleksandr in Data Engineers
В соседней группе по aws тоже предложили codebuild использовать для распаковки. Надо будет попробовать, спасибо
источник

ME

Max Efremov in Data Engineers
Вот такие варианты там, если влезет на диск, то норм
источник

ME

Max Efremov in Data Engineers
источник

ME

Max Efremov in Data Engineers
У нас на CodeBuild происходит запаковка в архивы csv с S3 как раз)
источник

A

Aleksandr in Data Engineers
окей, спасибо за помощь!
источник

A

Alex in Data Engineers
сомневаюсь что он это хотел, ну и там хортоны про свою платформу описывают, но не всё там так гладно

как минимум нормально спарк полетел только начиная с 3.2
до этого даже при использовании host network внутри контейнеры имели кривой hostname и спарк этому был совсем не рад

а вот на 3.2 я уже подымал спарк с драйвером и екзекутарами в докерах на ярне
источник

N

Nikita Blagodarnyy in Data Engineers
Alex
сомневаюсь что он это хотел, ну и там хортоны про свою платформу описывают, но не всё там так гладно

как минимум нормально спарк полетел только начиная с 3.2
до этого даже при использовании host network внутри контейнеры имели кривой hostname и спарк этому был совсем не рад

а вот на 3.2 я уже подымал спарк с драйвером и екзекутарами в докерах на ярне
Про ваниль речь?
источник

N

Nikita Blagodarnyy in Data Engineers
А то тут коллеги собрались бареметалл закупать. А оно вон как оказывается, в докерах нормально заработало.
источник

A

Alex in Data Engineers
да
ванишь хадуп 3.2.0 (уже поставил таск админам обновить до 3.2.1, там пару вещей в докере пофиксили, но вообще в 3.3.0 смержили ещё больше полезных вещей)
ваниль спарк 2.4.3 (наша пересборка с мелкими фиксами)
источник

A

Alex in Data Engineers
докеры на хадупе уже регулярно гоняем, там у меня jupyter kernels крутятся питоновские и R
был ресерч чтобы и спарк запустить для pyspark в них же, меньше головняка с подготовкой окружения и всякими venv, что хочешь то и ставь
источник