Size: a a a

2020 December 11

KS

K S in Data Engineers
Просто я не хотел бы завалить production database своими экспериментами.
источник

Д

Дмитрий in Data Engineers
K S
В принципе можно просто разделить время 3.5 часа в процентном соотношении и получить время на большую таблицу. А оптимизацию отслеживать по общему времени.
У тебя могут 2 джоба лить эти 2 таблицы, больше всего по времени, и добавление еще джобов не даст уменьшения времени. Ну и диски переделать конечно, если это не луны внешнего массива.
источник

KS

K S in Data Engineers
Понятно, спасибо.
источник

KS

K S in Data Engineers
Ещё вопрос по Postgres.
Делаю запрос в parent table типа
psql remote_host "copy(select cols from table where created_at ...)"

Будет ли быстрее если делать запрос в partitions, которых около 50?
источник

KS

K S in Data Engineers
Это всё часть Data Ingest
источник
2020 December 12

GP

Grigory Pomadchin in Data Engineers
спасибо)
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это со смартдаты приехало
источник

PA

Panchenko Andrey in Data Engineers
Не релевантный чат
источник

A

Alex in Data Engineers
Посчитать?
источник

DB

Darya Bulanova in Data Engineers
Panchenko Andrey
Не релевантный чат
Почему? 🙂
источник

PK

Pearl Kerr in Data Engineers
you can get participant by id
источник

A

Andrey in Data Engineers
Darya Bulanova
Почему? 🙂
Это не к Паше был ответ) там спам пришел с предложением о займе
источник

DB

Darya Bulanova in Data Engineers
Ааа.. 👌
источник

DB

Darya Bulanova in Data Engineers
Получилось складно ))
источник

NB

Nikita Bakanchev in Data Engineers
Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.

Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄

Вопрос именно технический, а не с точки зрения data privacy )
источник

ПФ

Паша Финкельштейн... in Data Engineers
Nikita Bakanchev
Привет. А существует какой-нибудь лайфхак по забору данных из kerberized HDFS с шифрованием, процессингом на другом кластере Hadoop(через spark) и сложением полученных данных во внешнюю MPP.

Собственно варианты не выпендриваться и процедить на 1 кластере понятны, но проблемы хорошей работы очередей на первом кластере 😄

Вопрос именно технический, а не с точки зрения data privacy )
Берёшь Big Data Tools, копирушь с одного кластера на другой и процессишь
источник

NB

Nikita Bakanchev in Data Engineers
Паша Финкельштейн
Берёшь Big Data Tools, копирушь с одного кластера на другой и процессишь
имеется в виду IDEA Plugin?
источник

NB

Nikita Bakanchev in Data Engineers
боюсь на прод стендах не прокатит
источник

ПФ

Паша Финкельштейн... in Data Engineers
Nikita Bakanchev
имеется в виду IDEA Plugin?
Конечно
источник

ПФ

Паша Финкельштейн... in Data Engineers
Nikita Bakanchev
боюсь на прод стендах не прокатит
Почему?
источник