Телеграмм чат группы hadoopusers страница 2806

Проверки

21:59пожаловаться #1

SD

я бы тоже) но имею на руках то, что имею

21:59пожаловаться #2

SD

KrivdaTheTriewe

Я бы не использовал такой подход

Ну и раз зашел разговор, какой подход true way? Конструировать датафрейм до конца и при материализации обрабатывать ошибку? Или заранее проверять существование файла через hdfs api?

22:00пожаловаться #3

K

Serg D.

я бы тоже) но имею на руках то, что имею

Причем я боюсь там все сильно зависит от сорца который используется , и рид услново может ничего не проверять

22:01пожаловаться #4

K

Нужно посмотреть какой контракт наложен на рид и лоад

22:01пожаловаться #5

SD

К сожалению, я еще не на столько погрузился в Spark... по контрактам не в курсе. но в spark-shell погонял, в целом если файл не существует то на выходе Failure . Т.е. задумка автора в целом работает на целевой платформе.

22:03пожаловаться #6

K

Serg D.

Ну и раз зашел разговор, какой подход true way? Конструировать датафрейм до конца и при материализации обрабатывать ошибку? Или заранее проверять существование файла через hdfs api?

я не знаю правильного ответа, зависит от бизнес требований, к сожалению

22:08пожаловаться #7

K

но лезть через хдфс апи я бы меньше всего хотел

22:09пожаловаться #8

SD

Ну вообще я склоняюсь к полному построению и обработке материализации. Т.к. далее по коду идет фильтрация, и по сути в файле может просто не оказать необходимой информации, в виду чего проверка на наличие файла становится в принципе бессмысленной. В любом случае необходимые расчеты не смогут быть выполнены.

Спасибо за ответы.

22:12пожаловаться #9

ME

Max Efremov in Data Engineers

А там именно hdfs? А то для s3 можно просто boto3 взять)

22:14пожаловаться #10

SD

hdfs)

22:20пожаловаться #11

2020 September 28

A

Andrey in Data Engineers

Serg D.

Ну вообще я склоняюсь к полному построению и обработке материализации. Т.к. далее по коду идет фильтрация, и по сути в файле может просто не оказать необходимой информации, в виду чего проверка на наличие файла становится в принципе бессмысленной. В любом случае необходимые расчеты не смогут быть выполнены.

Спасибо за ответы.

обычно для расчетов устанавливается сенсор в workflow менеджере, точнее если данные необходимы для расчета, то устанавливается, если можно и без них рассчитать то нет(либо берется предыдущая партиция)

09:26пожаловаться #12

SD

Andrey

обычно для расчетов устанавливается сенсор в workflow менеджере, точнее если данные необходимы для расчета, то устанавливается, если можно и без них рассчитать то нет(либо берется предыдущая партиция)

Спасибо, я смотрел такую возможность в oozie, но, к сожалению, там другой бизнес-кейс, и такая механика не подходит.

10:15пожаловаться #13

PA

Panchenko Andrey in Data Engineers

Всем хай.
Apache Beam python SDK.
Вопрос.
Как засунуть в файл после окончания срока окна, но чтобы file io или любой другой коннектор писал в файл только по комбинации старт окна конец окна и расширение файла. А то оно мне ещё шарды туда сует, я пытался отключить но что-то не але. Заранее спасибо

21:03пожаловаться #14

PA

Panchenko Andrey in Data Engineers

Имеется ввиду чтобы файл для окна был один

21:04пожаловаться #15

PA

Panchenko Andrey in Data Engineers

Делаю вот этим коннектором
https://beam.apache.org/releases/pydoc/2.15.0/apache_beam.io.fileio.html но оно сует таки curent shard and total shsrd в название файла

21:31пожаловаться #16

SS

Sergey Sheremeta in Data Engineers

Colegas, hola!
atención por favor

как бы мне через Spark Thrift Server поселектить не только паркетные таблицы, но и удаленные JDBC-таблички (постгрес там, мускули с ораклами, все это шапито)?
копать в сторону
EXTERNAL TABLE ... STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
?

21:53пожаловаться #17

SS

Sergey Sheremeta in Data Engineers

Sergey Sheremeta

Colegas, hola!
atención por favor

как бы мне через Spark Thrift Server поселектить не только паркетные таблицы, но и удаленные JDBC-таблички (постгрес там, мускули с ораклами, все это шапито)?
копать в сторону
EXTERNAL TABLE ... STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
?

Presto?

Андрей Жуков... in Data Engineers

21:58пожаловаться #18

АЖ

Sergey Sheremeta

Colegas, hola!
atención por favor

как бы мне через Spark Thrift Server поселектить не только паркетные таблицы, но и удаленные JDBC-таблички (постгрес там, мускули с ораклами, все это шапито)?
копать в сторону
EXTERNAL TABLE ... STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
?

Дримио решили выпилить? :)

22:24пожаловаться #19

SS

Sergey Sheremeta in Data Engineers

Андрей Жуков

Дримио решили выпилить? :)

у нас его нетууу (((