Size: a a a

2019 October 29

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
если речь идет про bigquery views и родной GCP Spark Connector то нет, потому что этот коннектор делает экспорт (раньше в GCS, теперь через Storage API напрямки), а BQ Views не поддерживают экспорт
Я имел в виду всякие виртуальные таблички типа __TABLES_SUMMARY__
источник

ПФ

Паша Финкельштейн in Data Engineers
Я вот не уверен что они прям вьюхи
источник

ПФ

Паша Финкельштейн in Data Engineers
И вайлдкард таблички его тоже не заставишь смотреть, я правильно понял?
источник

ПФ

Паша Финкельштейн in Data Engineers
То есть прямо скажем жалкое подобие левой руки
источник

ПФ

Паша Финкельштейн in Data Engineers
А можно ли заставить его выполнить произвольный sql?
источник

AZ

Anton Zadorozhniy in Data Engineers
ну почему, это рабочая штука, просто для своих задач
источник

AZ

Anton Zadorozhniy in Data Engineers
он ничего не выполняет, это сахар вокруг экспорт джобов, все что вы можете выполнить на данных которые экспортнули в GCS - можно сделать и в BigQuery
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
он ничего не выполняет, это сахар вокруг экспорт джобов, все что вы можете выполнить на данных которые экспортнули в GCS - можно сделать и в BigQuery
Спасибо
источник

ПФ

Паша Финкельштейн in Data Engineers
Мне как-то не хватало этого понимания (и в доке ничего не написано)
источник

AZ

Anton Zadorozhniy in Data Engineers
новый Storage API слава богу научился проекции колонок и какие-то предикаты, но пока доступен в европке только в одном регионе
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
новый Storage API слава богу научился проекции колонок и какие-то предикаты, но пока доступен в европке только в одном регионе
у меня европка!
источник

ПФ

Паша Финкельштейн in Data Engineers
причём кажется даже правильный регион
источник

ПФ

Паша Финкельштейн in Data Engineers
это же тот, который экспериментальный?
источник

ПФ

Паша Финкельштейн in Data Engineers
BQ Storage API
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
Мне как-то не хватало этого понимания (и в доке ничего не написано)
чот мне кажется они это не скрывают:
> The connector writes the data to BigQuery by first buffering all the data into a Cloud Storage temporary table, and then it copies all data from into BigQuery in one operation. The connector attempts to delete the temporary files once the BigQuery load operation has succeeded and once again when the Spark application terminates. If the job fails, you may need to manually remove any remaining temporary Cloud Storage files. Typically, you'll find temporary BigQuery exports in gs://bucket/.spark-bigquery-[jobid]-[UUID].
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
это же тот, который экспериментальный?
europe-west2
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
чот мне кажется они это не скрывают:
> The connector writes the data to BigQuery by first buffering all the data into a Cloud Storage temporary table, and then it copies all data from into BigQuery in one operation. The connector attempts to delete the temporary files once the BigQuery load operation has succeeded and once again when the Spark application terminates. If the job fails, you may need to manually remove any remaining temporary Cloud Storage files. Typically, you'll find temporary BigQuery exports in gs://bucket/.spark-bigquery-[jobid]-[UUID].
ну как бы вот это совсем не значит что там нельзя выполнить arbitary SQL потому что всегда можно сделать CREATE TABLE FROM SELECT AS (SELECT * FROM ()), а потом её дампануть в gcs
источник

AZ

Anton Zadorozhniy in Data Engineers
Паша Финкельштейн
ну как бы вот это совсем не значит что там нельзя выполнить arbitary SQL потому что всегда можно сделать CREATE TABLE FROM SELECT AS (SELECT * FROM ()), а потом её дампануть в gcs
я понимаю о чем вы, но будь я на месте авторов BQ, я бы тоже пошел по такому пути как они, потому что создание временных структур внутри, оркестрация процессов (надо сделать временную таблицу, выгрузить, а потом удалить, где-то хранить их список) - это много телодвижений, если помнить что для гугла датапроц - это легаси
источник

AZ

Anton Zadorozhniy in Data Engineers
BQ же не совсем СУБД, это скорее Presto на стероидах
источник

ПФ

Паша Финкельштейн in Data Engineers
Anton Zadorozhniy
я понимаю о чем вы, но будь я на месте авторов BQ, я бы тоже пошел по такому пути как они, потому что создание временных структур внутри, оркестрация процессов (надо сделать временную таблицу, выгрузить, а потом удалить, где-то хранить их список) - это много телодвижений, если помнить что для гугла датапроц - это легаси
Но так получается что сабсет дпйствий, который я могу совершить спарком над bq настолько ограничен, что больно.
источник