Size: a a a

2019 October 29

ПФ

Паша Финкельштейн in Data Engineers
И мне приходится городить всю эту логику на airflow
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
Но так получается что сабсет дпйствий, который я могу совершить спарком над bq настолько ограничен, что больно.
да, в видении гугла вы и не должны пользоваться датапроцем, переходите на прямые скрипты к BQ и Dataflow
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
да, в видении гугла вы и не должны пользоваться датапроцем, переходите на прямые скрипты к BQ и Dataflow
ну да, они-то в вендорлоке заинтересованы, но тогда не совсем понятно зачем им вообще делать коннектор
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
ну да, они-то в вендорлоке заинтересованы, но тогда не совсем понятно зачем им вообще делать коннектор
замануха для миграций :) мы все так делаем
источник

ПФ

Паша Финкельштейн in Data Engineers
А как работает тамошний JDBC кстати? Он поддерживает все эти вайлдкард таблички и так далее?
источник

ПФ

Паша Финкельштейн in Data Engineers
тамошний - SimbaJDBC
источник

AZ

Anton Zadorozhniy in Data Engineers
вообще я редко вижу такое операционное взаимодействие dataproc + bigquery, обычно если используется датапроц, то данные в GCS, а bigquery они грузятся уже когда обработаны; а если все изначально живет в BQ то и датапроц не нужен, все на датафлоу
источник

ПФ

Паша Финкельштейн in Data Engineers
Потому тчо если да - то я могу очевидно датафрейм и из JDBC получить
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
А как работает тамошний JDBC кстати? Он поддерживает все эти вайлдкард таблички и так далее?
для BI/Reporting норм, но я не использовал (и не рекомендую) его для массовых выгрузок/загрузок
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
вообще я редко вижу такое операционное взаимодействие dataproc + bigquery, обычно если используется датапроц, то данные в GCS, а bigquery они грузятся уже когда обработаны; а если все изначально живет в BQ то и датапроц не нужен, все на датафлоу
ну у нас примерно так: подрядчики льют стату на BQ, это понятно и им так удобно. Но нам конечно удобно и дешевле свой датапроц делать на spark
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
ну у нас примерно так: подрядчики льют стату на BQ, это понятно и им так удобно. Но нам конечно удобно и дешевле свой датапроц делать на spark
вы уверены что дешевле с dataproc чем с dataflow?
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
вы уверены что дешевле с dataproc чем с dataflow?
ну как сказать. Я не то чтобы уверен, но мне по сути бы данные перелить в хайв (кторый всё равно есть и в нём много и из него ничего никуда не уйдёт) и потом их ркутить
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
ну как сказать. Я не то чтобы уверен, но мне по сути бы данные перелить в хайв (кторый всё равно есть и в нём много и из него ничего никуда не уйдёт) и потом их ркутить
ну то есть легаси, да, для этого датапроц и затевался
источник

СХ

Старый Хрыч in Data Engineers
😐кстати а пробовал кто в кафке хранить файлы
источник

СХ

Старый Хрыч in Data Engineers
например с расширением mp3
источник

t

tenKe in Data Engineers
источник

t

tenKe in Data Engineers
источник

t

tenKe in Data Engineers
источник

СХ

Старый Хрыч in Data Engineers
грубо говоря нужна очередь под mp3 файлы, типа пока плеер не обработает они там хранятся, как обработал - удаляется
источник

РА

Рамиль Ахмадеев in Data Engineers
Старый Хрыч
😐кстати а пробовал кто в кафке хранить файлы
ты можешь там хранить любые файлы
источник