Size: a a a

2020 October 15

ME

Mikhail Epikhin in Data Engineers
ну кмк это от окружения зависит.
Если у вас в графе airflow будет только create table, spark-submit, create index, то я не вижу смысла описывать все это в графе airflow, можно и spark-job засунуть
источник

ME

Mikhail Epikhin in Data Engineers
если у вас уже есть airflow graph и там такого добра валом, то можно и там сделать
источник

GP

Grigory Pomadchin in Data Engineers
Андрей Жуков
на все твои извилины? 🙂
источник

GP

Grigory Pomadchin in Data Engineers
Андрей очень злой
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Epikhin
потому что "большой батч" может быть меньше тех данных что уже лежат
Это не важно, все равно так будет быстрее. В случае новой таблицы то индексы лучше после заливки добавить, а где именно это дело вкуса
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Boytsov
> Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить
и как в таком плане лучше орагнизовать вызов такого create index sql
неужели вызывать при помощи любого jdbc коннектора прямо из spark джобы?
кмк проще отдельным таском в эйрфлоу, а мб и вообще отдельным дагом, если у вас регламенты позволяют (сначала все льем, потом собираем статистику и строим индексы)
источник

AZ

Anton Zadorozhniy in Data Engineers
часто эти оптимизации для читателей разрабатываются отдельно от процессов заливки, и шипить новый новый джоб когда вы просто добавили сбор статистики по колонке мб лишним
источник

А

Алексей in Data Engineers
в оракле делают стэйдж слой, туда заливают, создают индексы, собирают статистику, потом делают короткую операцию exchange partition с новой партицией целевого отчета
источник

D

Dmitry Girichev in Data Engineers
Добрый день. У меня есть вопрос связанный со скалой и спарком.
Я не большой спец по скале и спарку и местами не понимаю что происходит.
Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:

df.write.format("com.vertica.spark.datasource.DefaultSource").options(opt).mode(mode).save()

Где то внутри она использует jdbc.
Вопрос в том - могу ли я подсунуть ей как то, явно или не явно, параметры jdbc дравйвера?
источник

M

Mi in Data Engineers
Dmitry Girichev
Добрый день. У меня есть вопрос связанный со скалой и спарком.
Я не большой спец по скале и спарку и местами не понимаю что происходит.
Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:

df.write.format("com.vertica.spark.datasource.DefaultSource").options(opt).mode(mode).save()

Где то внутри она использует jdbc.
Вопрос в том - могу ли я подсунуть ей как то, явно или не явно, параметры jdbc дравйвера?
это не столько к спарку относится, сколько к вертике, вам нужно смотреть как устроен этот формат и как он берет конфигурацию jdbc
источник

M

Mi in Data Engineers
если код открыт конечно же
источник

M

Mi in Data Engineers
и можно ли его подменить/переопределить
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Girichev
Добрый день. У меня есть вопрос связанный со скалой и спарком.
Я не большой спец по скале и спарку и местами не понимаю что происходит.
Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:

df.write.format("com.vertica.spark.datasource.DefaultSource").options(opt).mode(mode).save()

Где то внутри она использует jdbc.
Вопрос в том - могу ли я подсунуть ей как то, явно или не явно, параметры jdbc дравйвера?
по-моему они не открывают доступ к jdbc string напрямую в своем Default Source, все параметры изложны в документации, за остальным - в поддержку https://www.vertica.com/docs/10.0.x/HTML/Content/Authoring/SparkConnector/WritingtoVerticaUsingDefaultSource.htm
источник

AZ

Anton Zadorozhniy in Data Engineers
как вариант - взять джарник, декомпильнуть и посмотреть
источник

AZ

Anton Zadorozhniy in Data Engineers
Mi
если код открыт конечно же
код закрыт
источник

D

Dmitry Girichev in Data Engineers
Anton Zadorozhniy
как вариант - взять джарник, декомпильнуть и посмотреть
это все интересно но уже несколько дней бьюсь над этими задачами, сейчас уже хочется чтоб просто заработало )
источник

D

Dmitry Girichev in Data Engineers
не уверен что даст результат
источник

ME

Max Efremov in Data Engineers
Написать в поддержку вертики)
источник

D

Dmitry Girichev in Data Engineers
возможно придется подгонять параметры под то что ждет этот формат
источник

D

Dmitry Girichev in Data Engineers
Max Efremov
Написать в поддержку вертики)
да уже с ними общаюсь, но они тоже не все знают
источник