Телеграмм чат группы hadoopusers страница 3033

2020 December 11

KS

K S in Data Engineers

Просто я не хотел бы завалить production database своими экспериментами.

источник

20:30пожаловаться #1

Д

Дмитрий in Data Engineers

K S

В принципе можно просто разделить время 3.5 часа в процентном соотношении и получить время на большую таблицу. А оптимизацию отслеживать по общему времени.

У тебя могут 2 джоба лить эти 2 таблицы, больше всего по времени, и добавление еще джобов не даст уменьшения времени. Ну и диски переделать конечно, если это не луны внешнего массива.

источник

20:32пожаловаться #2

KS

K S in Data Engineers

Понятно, спасибо.

источник

20:39пожаловаться #3

KS

K S in Data Engineers

Ещё вопрос по Postgres.
Делаю запрос в parent table типа

psql remote_host "copy(select cols from table where created_at ...)"

Будет ли быстрее если делать запрос в partitions, которых около 50?

источник

20:53пожаловаться #4

KS

K S in Data Engineers

Это всё часть Data Ingest

источник

20:54пожаловаться #5

2020 December 12

GP

Grigory Pomadchin in Data Engineers

спасибо)

источник

01:22пожаловаться #6

ПФ

Паша Финкельштейн... in Data Engineers

Это со смартдаты приехало

источник

15:37пожаловаться #7

PA

Panchenko Andrey in Data Engineers

Не релевантный чат

источник

16:17пожаловаться #8

A

Alex in Data Engineers

Посчитать?

источник

16:17пожаловаться #9

DB

Darya Bulanova in Data Engineers

Panchenko Andrey

Не релевантный чат

Почему? 🙂

источник

17:02пожаловаться #10

PK

Pearl Kerr in Data Engineers

you can get participant by id

источник

17:09пожаловаться #11

A

Andrey in Data Engineers

Darya Bulanova

Почему? 🙂

Это не к Паше был ответ) там спам пришел с предложением о займе

источник

17:19пожаловаться #12

DB

Darya Bulanova in Data Engineers

Ааа.. 👌

источник

17:20пожаловаться #13

DB

Darya Bulanova in Data Engineers

Получилось складно ))

источник

17:20пожаловаться #14

NB

Nikita Bakanchev in Data Engineers

Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.

Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄

Вопрос именно технический, а не с точки зрения data privacy )

источник

19:14пожаловаться #15

ПФ

Паша Финкельштейн... in Data Engineers

Nikita Bakanchev

Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.

Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄

Вопрос именно технический, а не с точки зрения data privacy )

Берёшь Big Data Tools, копирушь с одного кластера на другой и процессишь

источник

19:15пожаловаться #16

NB

Nikita Bakanchev in Data Engineers

Паша Финкельштейн

Берёшь Big Data Tools, копирушь с одного кластера на другой и процессишь

имеется в виду IDEA Plugin?

источник

19:17пожаловаться #17

NB

Nikita Bakanchev in Data Engineers