ну кмк это от окружения зависит. Если у вас в графе airflow будет только create table, spark-submit, create index, то я не вижу смысла описывать все это в графе airflow, можно и spark-job засунуть
> Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить и как в таком плане лучше орагнизовать вызов такого create index sql неужели вызывать при помощи любого jdbc коннектора прямо из spark джобы?
кмк проще отдельным таском в эйрфлоу, а мб и вообще отдельным дагом, если у вас регламенты позволяют (сначала все льем, потом собираем статистику и строим индексы)
часто эти оптимизации для читателей разрабатываются отдельно от процессов заливки, и шипить новый новый джоб когда вы просто добавили сбор статистики по колонке мб лишним
в оракле делают стэйдж слой, туда заливают, создают индексы, собирают статистику, потом делают короткую операцию exchange partition с новой партицией целевого отчета
Добрый день. У меня есть вопрос связанный со скалой и спарком. Я не большой спец по скале и спарку и местами не понимаю что происходит. Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:
Добрый день. У меня есть вопрос связанный со скалой и спарком. Я не большой спец по скале и спарку и местами не понимаю что происходит. Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:
Добрый день. У меня есть вопрос связанный со скалой и спарком. Я не большой спец по скале и спарку и местами не понимаю что происходит. Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику: