Size: a a a

2021 March 23

AZ

Anton Zadorozhniy in Data Engineers
если нужны быстрые лукапы то лучше греть данные уже в СУБД
источник

KS

K S in Data Engineers
Anton Zadorozhniy
OMG, это очень неудачное решение, совершенно точно не стоит по такому большому количеству значений партицировать, у вас и partition lookup потом тормозить будет, сжатие пострадает..
Да, я это понимаю, но такова бизнес логика, нужно строить промежуточные структуры типа

Root
-- level1
---- device_id_1
------controller
--------filename.json
...


Для небольших сетов работает нормально, однако для клиентов с миллионами девайсов подобное решение не срабатывает.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Да, я это понимаю, но такова бизнес логика, нужно строить промежуточные структуры типа

Root
-- level1
---- device_id_1
------controller
--------filename.json
...


Для небольших сетов работает нормально, однако для клиентов с миллионами девайсов подобное решение не срабатывает.
я бы хранил все в нормальных больших файлах, и видимо подходящий адресат новой фичи "лямбда на объектах"
источник

AZ

Anton Zadorozhniy in Data Engineers
(преобразовывать на лету при чтении, https://aws.amazon.com/s3/features/object-lambda/)
источник

KS

K S in Data Engineers
Anton Zadorozhniy
я бы хранил все в нормальных больших файлах, и видимо подходящий адресат новой фичи "лямбда на объектах"
Я видел это только на днях выпустили, посмотрю, подойдет ли нам.
источник

KS

K S in Data Engineers
Ещё вопрос, как лучше трейсить в спарке(AWS Glue)? Я немного поковырял X-ray, но там нужно устанавливать какой-то сервис, который будет собирать данные и отправлять в x-ray. Непонятно, где он будет крутиться, на драйвере, что ли?
источник

AG

Alexander Gorokhov in Data Engineers
K S
Ещё вопрос, как лучше трейсить в спарке(AWS Glue)? Я немного поковырял X-ray, но там нужно устанавливать какой-то сервис, который будет собирать данные и отправлять в x-ray. Непонятно, где он будет крутиться, на драйвере, что ли?
Какого рода трейс нужен?
источник

KS

K S in Data Engineers
Alexander Gorokhov
Какого рода трейс нужен?
Хочу узнать время выполнения функций в спарк джобах, в зависимости от увеличения data skew, чтобы понять при каком значении начинает тормозить.
источник

C

Combot in Data Engineers
Kim has been banned! Reason: CAS ban.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Ещё вопрос, как лучше трейсить в спарке(AWS Glue)? Я немного поковырял X-ray, но там нужно устанавливать какой-то сервис, который будет собирать данные и отправлять в x-ray. Непонятно, где он будет крутиться, на драйвере, что ли?
источник

KS

K S in Data Engineers
Классно, спасибо!
источник

CV

Chandan Volkaji in Data Engineers
Hai guys, I have a question. Can anyone please answer this.

I have an excel file where the columns are dynamic..
Each month they are adding a column.

What would be the best way to upload into sql
источник
2021 March 24

T

T in Data Engineers
Chandan Volkaji
Hai guys, I have a question. Can anyone please answer this.

I have an excel file where the columns are dynamic..
Each month they are adding a column.

What would be the best way to upload into sql
What do you mean by"upload into SQL"?
источник

GP

Grigory Pomadchin in Data Engineers
источник

ИК

Иван Калининский... in Data Engineers
Chandan Volkaji
Hai guys, I have a question. Can anyone please answer this.

I have an excel file where the columns are dynamic..
Each month they are adding a column.

What would be the best way to upload into sql
I guess, you want to insert it into some table. Well, if you are using DB supporting column families, you can add a column to a family and update it (or the whole family) with new values. If you are using some RDBMS, just use pivot/unpivot, it’s the only rational solution, so you’ll not mess with ddl and dynamic sql every month
источник

N

Nikita Blagodarnyy in Data Engineers
Chandan Volkaji
Hai guys, I have a question. Can anyone please answer this.

I have an excel file where the columns are dynamic..
Each month they are adding a column.

What would be the best way to upload into sql
U mean how to parse it? Or how to transform parsed data?
источник

SO

Simon Osipov in Data Engineers
Ребят, а расскажите про ограничения в Tableu про объемы данных?
Представим себе, есть Greenplum, в нем много-много строк (пара миллиардов, например, на 3-5 колонок)
Как себя tableu чувствует с большими данными?

Очень размыто, конечно, спросил, но оч надеюсь, что понятно)))
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Также, как постгрес с редисом в кеше
источник

NN

No Name in Data Engineers
Simon Osipov
Ребят, а расскажите про ограничения в Tableu про объемы данных?
Представим себе, есть Greenplum, в нем много-много строк (пара миллиардов, например, на 3-5 колонок)
Как себя tableu чувствует с большими данными?

Очень размыто, конечно, спросил, но оч надеюсь, что понятно)))
А кластер большой?)
источник

NN

No Name in Data Engineers
Vladislav 👻 Shishkov
Также, как постгрес с редисом в кеше
А это как?
источник