Size: a a a

2019 December 05

AZ

Anton Zadorozhniy in Data Engineers
просто у вас в WAL будут еще и апдейты по уже существующим ключам
источник

Ж

Жмака in Data Engineers
Там вроде каждый раз новый ключ, но не уверен: не моя кухня. Сделаю тогда так. Спасибо!
источник

М

Михаил in Data Engineers
Народ привет, а кто нибудь в курсе, можно ли включить аулит лог hdfs, по конкретному локейшену?
источник

PA

Polina Azarova in Data Engineers
привет
вроде эта штука включается на неймноде на все категории хадупца :(
только если выгрепывать нужное по маске и складировать куда-то себе
источник

UD

Uncel Duk in Data Engineers
А что от аудита нужно?
источник

UD

Uncel Duk in Data Engineers
Есть такой забавный костыль https://github.com/paypal/NNAnalytics
источник

AZ

Anton Zadorozhniy in Data Engineers
если у вас есть рейнджер - можно включить аудит только на нужных вам политиках
источник

М

Михаил in Data Engineers
От аудита, нужно видеть какие пользователи что читают и пишут в локейшен
источник

AZ

Anton Zadorozhniy in Data Engineers
hdfs-audit.log (стандартную фичу самого HDFS) надо парсить, но у вас вроде хадуп есть?
источник

М

Михаил in Data Engineers
Я вижу нужную мне инфу в аудит логах hive и impala, но когда пользователь пишет напрямую не фиксируют
источник

AZ

Anton Zadorozhniy in Data Engineers
покажите log4j.properties с неймноды, там должны быть строчки про log4j.logger.org.apache.hadoop.hdfs.server.namenode.FSNamesystem.audit - куда они пишутся, какой уровень стоит
источник

PA

Polina Azarova in Data Engineers
а почему хочется аудит на конкретный локейшн? а не на все
пользователи же могут права на корень поменять :D
источник

S

Slava in Data Engineers
Всем привет! А есть ли какой нибудь простой мануал как запилить yarn-client и yarn-server для Spark? Я бы хотел запаковать свое приложение в Докер при этом. Вообще не силен в этих yarn, где про это почитать можно?
источник

A

Alex in Data Engineers
а можно подробней что значит yarn-client yarn-server
и если с первым ещё можно догадаться, то что подразумевается под вторым?
источник

AS

Andrey Smirnov in Data Engineers
Alex
а можно подробней что значит yarn-client yarn-server
и если с первым ещё можно догадаться, то что подразумевается под вторым?
10 к 1 речь про spark.deploy-mode=client|cluster
источник

A

Alex in Data Engineers
а докер тут при чём?
источник

AP

Anton Pilipenko in Data Engineers
Коллеги, такой вопрос - есть DataFrame в котором одно поле - json который я преобразую в итоге в Map
Если делать на Dataset с case классами не оч понимаю как оно работает а apply методом.
Например
case class myTest(id: Long, json: String)

df.as[myTest]

все хорошо и ожидаемо

делаем
case class myTest(id: Long, json: Map[String, String])

и apply который принимает (id: Long, json: String) но оно ругается на то что поле не того типа - есть как-то честный красивый способ его заставить использовать apply?
Да можно сделать withColumn + dropColumn и все что надо реализовать но хотелось бы все логику спрятать на case class
источник

S

Slava in Data Engineers
Andrey Smirnov
10 к 1 речь про spark.deploy-mode=client|cluster
да
источник

S

Slava in Data Engineers
Alex
а докер тут при чём?
я хочу свое приложение запаковать в докер, не знаю как оно все уживается, потому и спрашиваю
источник

DZ

Dmitry Zuev in Data Engineers
Anton Pilipenko
Коллеги, такой вопрос - есть DataFrame в котором одно поле - json который я преобразую в итоге в Map
Если делать на Dataset с case классами не оч понимаю как оно работает а apply методом.
Например
case class myTest(id: Long, json: String)

df.as[myTest]

все хорошо и ожидаемо

делаем
case class myTest(id: Long, json: Map[String, String])

и apply который принимает (id: Long, json: String) но оно ругается на то что поле не того типа - есть как-то честный красивый способ его заставить использовать apply?
Да можно сделать withColumn + dropColumn и все что надо реализовать но хотелось бы все логику спрятать на case class
но json это не Map[String, String]
источник