Size: a a a

2020 October 23

АЖ

Андрей Жуков... in Data Engineers
я чот про ту смартдату и забыл уже
источник

N

Nikita Blagodarnyy in Data Engineers
двое джентльменов по центру увлекательно вещали.
источник

PA

Panchenko Andrey in Data Engineers
Andrew Nasonov
А шо там в даг запихивать? Тем более spark streaming штатно не завершишь
А запись будет?
источник

nn

nasdaq nice in Data Engineers
nasdaq nice
Привет ребят такой вопрос
допустим есть файл в hdfs размером в 2 блока и лежат там записи скажем json by line
и в конце файла есть запись которая не умеситлась в размер блока поэтому часть этой записи пошла во 2й блок
я читаю файл спарком в 2 потка и у меня в RDD получаются 2 партиции
вопрос сможет ли спарк корректно распарсить ту запись часть которой лежит на 1 и на 2 блоках?
крч отбой, разобрался спаркич сначала последовательно парсит все блоки а уже потом их по партициям распихивает
источник
2020 October 24

ЕГ

Евгений Глотов... in Data Engineers
nasdaq nice
Привет ребят такой вопрос
допустим есть файл в hdfs размером в 2 блока и лежат там записи скажем json by line
и в конце файла есть запись которая не умеситлась в размер блока поэтому часть этой записи пошла во 2й блок
я читаю файл спарком в 2 потка и у меня в RDD получаются 2 партиции
вопрос сможет ли спарк корректно распарсить ту запись часть которой лежит на 1 и на 2 блоках?
Для сплиттабл файлов блок заканчивается на последнем пробеле, если что-то не влезает, если ничего не путаю
источник

ЕГ

Евгений Глотов... in Data Engineers
То есть не будет такого, что кусок строки в одном блоке, кусок в другом
источник

ЕГ

Евгений Глотов... in Data Engineers
Это при записи вроде происходит ещё, чтобы при чтении всё было ок
источник

M

Mi in Data Engineers
Евгений Глотов
Для сплиттабл файлов блок заканчивается на последнем пробеле, если что-то не влезает, если ничего не путаю
На последней новой строчке скорее
источник

M

Mi in Data Engineers
Пробел и внутри json может быть
источник

M

Mi in Data Engineers
Опять же split это не блок, даже если блок закончился на середине строки, спарк полезет в следующий блок за остатком сплита
источник

ЕГ

Евгений Глотов... in Data Engineers
Mi
На последней новой строчке скорее
Ой, да, по разделителю строк
источник
2020 October 26

T

T in Data Engineers
Привет, кто-нибудь сталкивался с тем, что после апгрейда версии oozie до 5.2.0 (EMR-5.30.1) оно перестало собирать spark.yarn.jars ? У меня из-за этого получаются дубликаты зависимостей и джоба падает. Подскажите в какую сторону копать?
P.S Беглый просмотр исходников показал что над копать в сторону org.apache.oozie.action.hadoop.JarFilter
источник

T

T in Data Engineers
T
Привет, кто-нибудь сталкивался с тем, что после апгрейда версии oozie до 5.2.0 (EMR-5.30.1) оно перестало собирать spark.yarn.jars ? У меня из-за этого получаются дубликаты зависимостей и джоба падает. Подскажите в какую сторону копать?
P.S Беглый просмотр исходников показал что над копать в сторону org.apache.oozie.action.hadoop.JarFilter
В общем, в амазоне изменилось именование spark-yarn_2.11-2.4.5.jar ->spark-yarn_2.11-2.4.5-amzn-0.jar  и теперь не матчится с патерном захардкоженым в узи
источник

I

Ihor in Data Engineers
Всем привет! подскажите пожалуйста кто работал с apache nifi?)
источник

I

Ihor in Data Engineers
если в кратце то ситуация следущая
при локальной разработке все работает, при деплои на кластер валит еррора org.apache.nifi.encrypt.StringEncryptor * A blank sensitive properties key was provided * когда сетаплю пароль в проперти валит другая еррора org.apache.nifi.encrypt.EncryptionException: Could not decrypt sensitive value
источник

AE

Alexey Evdokimov in Data Engineers
а cypher-ы локально и на кластере одинаковые? версии jvm? либы?
источник

nn

nasdaq nice in Data Engineers
Ihor
Всем привет! подскажите пожалуйста кто работал с apache nifi?)
источник

I

Ihor in Data Engineers
Alexey Evdokimov
а cypher-ы локально и на кластере одинаковые? версии jvm? либы?
на кластер оно диплоетсья в докере, то есть я беру официальный докер nifi и копирую туда свой флов и кастомние процессоры
источник

I

Ihor in Data Engineers
пасиб
источник

AE

Alexey Evdokimov in Data Engineers
Ihor
на кластер оно диплоетсья в докере, то есть я беру официальный докер nifi и копирую туда свой флов и кастомние процессоры
ну дык сделай одинаковое окружение, и проверяй локально с тем же самым докером
источник