Телеграмм чат группы hadoopusers страница 2874

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 October 15

ME

Mikhail Epikhin in Data Engineers

ну кмк это от окружения зависит.
Если у вас в графе airflow будет только create table, spark-submit, create index, то я не вижу смысла описывать все это в графе airflow, можно и spark-job засунуть

источник

14:52пожаловаться #1

ME

Mikhail Epikhin in Data Engineers

если у вас уже есть airflow graph и там такого добра валом, то можно и там сделать

источник

14:53пожаловаться #2

GP

Grigory Pomadchin in Data Engineers

Андрей Жуков

на все твои извилины? 🙂

источник

15:04пожаловаться #3

GP

Grigory Pomadchin in Data Engineers

Андрей очень злой

источник

15:04пожаловаться #4

AS

Andrey Smirnov in Data Engineers

Mikhail Epikhin

потому что "большой батч" может быть меньше тех данных что уже лежат

Это не важно, все равно так будет быстрее. В случае новой таблицы то индексы лучше после заливки добавить, а где именно это дело вкуса

источник

15:13пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

> Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить
и как в таком плане лучше орагнизовать вызов такого create index sql
неужели вызывать при помощи любого jdbc коннектора прямо из spark джобы?

кмк проще отдельным таском в эйрфлоу, а мб и вообще отдельным дагом, если у вас регламенты позволяют (сначала все льем, потом собираем статистику и строим индексы)

источник

15:31пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

часто эти оптимизации для читателей разрабатываются отдельно от процессов заливки, и шипить новый новый джоб когда вы просто добавили сбор статистики по колонке мб лишним

источник

15:35пожаловаться #7

А

Алексей in Data Engineers

в оракле делают стэйдж слой, туда заливают, создают индексы, собирают статистику, потом делают короткую операцию exchange partition с новой партицией целевого отчета

источник

15:40пожаловаться #8

D

Dmitry Girichev in Data Engineers

Добрый день. У меня есть вопрос связанный со скалой и спарком.
Я не большой спец по скале и спарку и местами не понимаю что происходит.
Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:

df.write.format("com.vertica.spark.datasource.DefaultSource").options(opt).mode(mode).save()

Где то внутри она использует jdbc.
Вопрос в том - могу ли я подсунуть ей как то, явно или не явно, параметры jdbc дравйвера?

источник

17:08пожаловаться #9

M

Mi in Data Engineers

Dmitry Girichev

Добрый день. У меня есть вопрос связанный со скалой и спарком.
Я не большой спец по скале и спарку и местами не понимаю что происходит.
Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:

df.write.format("com.vertica.spark.datasource.DefaultSource").options(opt).mode(mode).save()

Где то внутри она использует jdbc.
Вопрос в том - могу ли я подсунуть ей как то, явно или не явно, параметры jdbc дравйвера?

это не столько к спарку относится, сколько к вертике, вам нужно смотреть как устроен этот формат и как он берет конфигурацию jdbc

источник

17:15пожаловаться #10

M

Mi in Data Engineers

если код открыт конечно же

источник

17:15пожаловаться #11

M

Mi in Data Engineers

и можно ли его подменить/переопределить

источник

17:15пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Dmitry Girichev

Добрый день. У меня есть вопрос связанный со скалой и спарком.
Я не большой спец по скале и спарку и местами не понимаю что происходит.
Есть такая строчка полученна из доков вертики, которая должна писать спарк датафрейм в вертику:

df.write.format("com.vertica.spark.datasource.DefaultSource").options(opt).mode(mode).save()

Где то внутри она использует jdbc.
Вопрос в том - могу ли я подсунуть ей как то, явно или не явно, параметры jdbc дравйвера?

по-моему они не открывают доступ к jdbc string напрямую в своем Default Source, все параметры изложны в документации, за остальным - в поддержку https://www.vertica.com/docs/10.0.x/HTML/Content/Authoring/SparkConnector/WritingtoVerticaUsingDefaultSource.htm

источник

17:16пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

как вариант - взять джарник, декомпильнуть и посмотреть

источник

17:17пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

если код открыт конечно же

код закрыт

источник

17:17пожаловаться #15

D

Dmitry Girichev in Data Engineers

Anton Zadorozhniy

как вариант - взять джарник, декомпильнуть и посмотреть

это все интересно но уже несколько дней бьюсь над этими задачами, сейчас уже хочется чтоб просто заработало )

источник

17:18пожаловаться #16

D

Dmitry Girichev in Data Engineers

не уверен что даст результат

источник

17:18пожаловаться #17

ME

Max Efremov in Data Engineers

Написать в поддержку вертики)

источник

17:18пожаловаться #18

D

Dmitry Girichev in Data Engineers

возможно придется подгонять параметры под то что ждет этот формат

источник

17:18пожаловаться #19

D

Dmitry Girichev in Data Engineers

Написать в поддержку вертики)

да уже с ними общаюсь, но они тоже не все знают

источник

17:19пожаловаться #20