Телеграмм чат группы hadoopusers страница 2873

Привет, записываю из spark приложения в postgres данные просто каr dataframe.write.jdbc
Вопрос:
хочется добавить индексы к записанным данным, как бы вы это организовали:
через jdbc прямо из джобы вызывали соответсвующий sql?
писали триггеры внутри postgresql?
хитрая оркестрация через airflow?

источник

14:40пожаловаться #10

Max Efremov in Data Engineers

А просто в базе нельзя индексы включить?

источник

14:41пожаловаться #11

Max Efremov in Data Engineers

Или это нужно часто делать?

источник

14:41пожаловаться #12

Mikhail Epikhin in Data Engineers

но ведь индексы задаются на этапе DDL, в момент когда вы делаете insert into они автоматически строятся

источник

14:42пожаловаться #13

Mikhail Epikhin in Data Engineers

или вы каждый раз таблицу целиком пересоздаете?

источник

14:43пожаловаться #14

Sergey Boytsov in Data Engineers

это не то что бы отработанная схема работы
поэтому пока там была история каждый раз создавать таблицу

вероятно самый правильный способ был бы сначала сделать корректный ddl в котором описать все индексы, а уже после него запускать spark job

источник

14:44пожаловаться #15

Andrey Smirnov in Data Engineers

Mikhail Epikhin

но ведь индексы задаются на этапе DDL, в момент когда вы делаете insert into они автоматически строятся

Если грузится один большой батч, то лучше отключить индекс, записать, потом подключить обратно

источник

14:45пожаловаться #16

Mikhail Epikhin in Data Engineers

Andrey Smirnov

Если грузится один большой батч, то лучше отключить индекс, записать, потом подключить обратно

Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить

источник

14:46пожаловаться #17

Mikhail Epikhin in Data Engineers

Andrey Smirnov

Если грузится один большой батч, то лучше отключить индекс, записать, потом подключить обратно

тут правда скорее, не если грузится "большой батч", а если создаем новую таблицу

источник

14:47пожаловаться #18

Mikhail Epikhin in Data Engineers

потому что "большой батч" может быть меньше тех данных что уже лежат

источник

14:47пожаловаться #19

Sergey Boytsov in Data Engineers

> Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить
и как в таком плане лучше орагнизовать вызов такого create index sql
неужели вызывать при помощи любого jdbc коннектора прямо из spark джобы?

источник

14:51пожаловаться #20