Size: a a a

2020 September 27

K

KrivdaTheTriewe in Data Engineers
Проверки
источник

SD

Serg D. in Data Engineers
я бы тоже) но имею на руках то, что имею
источник

SD

Serg D. in Data Engineers
KrivdaTheTriewe
Я бы не использовал такой подход
Ну и раз зашел разговор, какой подход true way? Конструировать датафрейм до конца и при материализации обрабатывать ошибку? Или заранее проверять существование файла через hdfs api?
источник

K

KrivdaTheTriewe in Data Engineers
Serg D.
я бы тоже) но имею на руках то, что имею
Причем я боюсь там все сильно зависит от сорца который используется , и рид услново может ничего не проверять
источник

K

KrivdaTheTriewe in Data Engineers
Нужно посмотреть какой контракт наложен на рид и лоад
источник

SD

Serg D. in Data Engineers
К сожалению, я еще не на столько погрузился в Spark... по контрактам не в курсе. но в spark-shell погонял, в целом если файл не существует то на выходе Failure . Т.е. задумка автора в целом работает на целевой платформе.
источник

K

KrivdaTheTriewe in Data Engineers
Serg D.
Ну и раз зашел разговор, какой подход true way? Конструировать датафрейм до конца и при материализации обрабатывать ошибку? Или заранее проверять существование файла через hdfs api?
я не знаю правильного ответа, зависит от бизнес требований, к сожалению
источник

K

KrivdaTheTriewe in Data Engineers
но лезть через хдфс апи я бы меньше всего хотел
источник

SD

Serg D. in Data Engineers
Ну вообще я склоняюсь к полному построению и обработке материализации. Т.к. далее по коду идет фильтрация, и по сути в файле может просто не оказать необходимой информации, в виду чего проверка на наличие файла становится в принципе бессмысленной. В любом случае необходимые расчеты не смогут быть выполнены.

Спасибо за ответы.
источник

ME

Max Efremov in Data Engineers
А там именно hdfs? А то для s3 можно просто boto3 взять)
источник

SD

Serg D. in Data Engineers
hdfs)
источник
2020 September 28

A

Andrey in Data Engineers
Serg D.
Ну вообще я склоняюсь к полному построению и обработке материализации. Т.к. далее по коду идет фильтрация, и по сути в файле может просто не оказать необходимой информации, в виду чего проверка на наличие файла становится в принципе бессмысленной. В любом случае необходимые расчеты не смогут быть выполнены.

Спасибо за ответы.
обычно для расчетов устанавливается сенсор в workflow менеджере, точнее если данные необходимы для расчета, то устанавливается, если можно и без них рассчитать то нет(либо берется предыдущая партиция)
источник

SD

Serg D. in Data Engineers
Andrey
обычно для расчетов устанавливается сенсор в workflow менеджере, точнее если данные необходимы для расчета, то устанавливается, если можно и без них рассчитать то нет(либо берется предыдущая партиция)
Спасибо, я смотрел такую возможность в oozie, но, к сожалению, там другой бизнес-кейс, и такая механика не подходит.
источник

PA

Panchenko Andrey in Data Engineers
Всем хай.
Apache Beam python SDK.
Вопрос.
Как засунуть в файл после окончания срока окна, но чтобы file io или любой другой коннектор писал в файл только по комбинации старт окна конец окна и расширение файла. А то оно мне ещё шарды туда сует, я пытался отключить но что-то не але. Заранее спасибо
источник

PA

Panchenko Andrey in Data Engineers
Имеется ввиду чтобы файл для окна был один
источник

PA

Panchenko Andrey in Data Engineers
Делаю вот этим коннектором
https://beam.apache.org/releases/pydoc/2.15.0/apache_beam.io.fileio.html но оно сует таки curent shard and total shsrd в название файла
источник

SS

Sergey Sheremeta in Data Engineers
Colegas, hola!
atención por favor

как бы мне через Spark Thrift Server поселектить не только паркетные таблицы, но и удаленные JDBC-таблички (постгрес там, мускули с ораклами, все это шапито)?
копать в сторону
EXTERNAL TABLE ... STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
?
источник

SS

Sergey Sheremeta in Data Engineers
Sergey Sheremeta
Colegas, hola!
atención por favor

как бы мне через Spark Thrift Server поселектить не только паркетные таблицы, но и удаленные JDBC-таблички (постгрес там, мускули с ораклами, все это шапито)?
копать в сторону
EXTERNAL TABLE ... STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
?
Presto?
источник

АЖ

Андрей Жуков... in Data Engineers
Sergey Sheremeta
Colegas, hola!
atención por favor

как бы мне через Spark Thrift Server поселектить не только паркетные таблицы, но и удаленные JDBC-таблички (постгрес там, мускули с ораклами, все это шапито)?
копать в сторону
EXTERNAL TABLE ... STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
?
Дримио решили выпилить? :)
источник

SS

Sergey Sheremeta in Data Engineers
Андрей Жуков
Дримио решили выпилить? :)
у нас его нетууу (((
источник