Телеграмм чат группы hadoopusers страница 4309

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 October 07

Anton Zadorozhniy in Data Engineers

Это какой-то инновационный компактор)

источник

18:54пожаловаться #1

ИК

Иван Калининский... in Data Engineers

Ничо такого, было обсуждение в этом году, после перемешивания строк (как раз о чем вы говорите) файлов стало меньше, суммарный размер больше. После возвращения сортировки сообщали о хороших результатах

источник

18:57пожаловаться #2

Anton Zadorozhniy in Data Engineers

В лучших домах обычно хранят в каталогах информацию о правильной сортировке и прочих настройках самых жирных датасетов

источник

19:02пожаловаться #3

ИК

Иван Калининский... in Data Engineers

За свой дом могу сказать, так и есть

источник

19:03пожаловаться #4

Wite John-Wooddy Kus... in Data Engineers

Физкультпривет)

источник

20:06пожаловаться #5

Dmitry in Data Engineers

Всем привет! Подскажите, пожалуйста, оптимальный способ: нужно записать в hdfs паркетный файл с данными типа Seq[(String, String)] с использованием Hadoop API. Есть вариант использования org.apache.hadoop.ParquetWriter или еще с использованием AvroParquetWriter. Но это как-то высоко. Я не могу понять, можно ли для записи паркета например использовать FSDataOutputStream например? Спасибо!

источник

20:14пожаловаться #6

2021 October 08

РБ

Руслан Бикмаев... in Data Engineers

В Вертике эта тема подробно разобрана, половина оптимизации основана на упорядоченности нужных колонок. При сжатии работает то же самое, так как хорошо сжимаются повторяющиеся значения.
Для этого вверх ордер бай суют колонки с минимальным количеством уникальных значений и далее по нарастающей.
Если нужно сортироваить даты или веса, первые можно разбить по годам, месяцам (дням), вторые разбить на диапазоны .
Поиск или джоин по таким полям идет намного кайфовее.
При сжатии, если это критично, в смысле много обращений на чтение и мало на запись, упорядоченные данные должны сжаться намного лучше.

источник

00:36пожаловаться #7

Vladislav 👻 Shishkov... in Data Engineers

Вообще-то, в вертике не так...

источник

01:52пожаловаться #8

Vladislav 👻 Shishkov... in Data Engineers

Если конечно, мы говорим о структуре хранения, а не о структуре запросов с джойном

источник

01:53пожаловаться #9

Vladislav 👻 Shishkov... in Data Engineers

Располагать колонки только из-за типа, это явно какая-то фантазия. В той же вертике, если мы говорим о хранении и ddl, то для проекций конечно же надо указывать правильную сортировку с нужной последовательностью, но при этом будет это инт или варчар, с точки зрения хранения - все равно.

источник

01:56пожаловаться #10

Vladislav 👻 Shishkov... in Data Engineers

Когда же делается выборка, то оптимизатор работает чуть иначе и тут как раз уже играет роль колоночности, в первую очередь, для красивого мердж-джойна конечно же надо брать первые сортированные поля, но дальнейшая логика может идти уже по любым полям, даже которые не участвуют в явной форме в сортировке на проекции

источник

01:57пожаловаться #11

Vladislav 👻 Shishkov... in Data Engineers

Ну и последнее, с точки зрения работы оптимизатора вертики, брать первые поля с минимальными повторениями имеет смысл, но только если нет партиций и сегментации, а как известно, на фактовых таблицах сегментация должна быть априори, как следствие, первые колонки это всегда уники и дт для партиций

источник

02:00пожаловаться #12

Sergei Korolev in Data Engineers

@aledovsky привет =)

источник

11:09пожаловаться #13

Kseniia in Data Engineers

Серёжа, привет

источник

11:22пожаловаться #14

Alexander Ledovsky in Data Engineers

Привет!)

источник

11:23пожаловаться #15

Oleg Ilinsky in Data Engineers

Привет!
Вопрос: есть ли какие-нибудь легковесные in-memory SQL базы данных, чтобы можно было в них держать чуть-чуть данных и иметь возможность быстро получать из них что-то на основе sql запроса (в т.ч. с оконными функциями и т.п.). Т.е. как memcached, но с SQL)

источник

14:26пожаловаться #16

Nikita Blagodarnyy in Data Engineers

игнайт :)

источник

14:27пожаловаться #17

Oleg Ilinsky in Data Engineers

кстати, смотрю на него, но смутило

is a distributed database for high-performance computing with in-memory speed

звучит как бигдата)

источник

14:27пожаловаться #18

ИК

Иван Калининский... in Data Engineers

звучит как бигдата, выглядит как бигдата, по факту утка ))

источник

14:28пожаловаться #19

Вячеслав in Data Engineers

SQLite :)

источник

14:29пожаловаться #20