Size: a a a

2021 March 22

UD

Uncel Duk in Data Engineers
Как это например делают в warc-е
источник

ПБ

Повелитель Бури... in Data Engineers
Pavel
Gzip unsplittable
а если сначала расзиповать? места нет?
источник

P

Pavel in Data Engineers
Повелитель Бури
а если сначала расзиповать? места нет?
10 тб с легкостью превращаются в полпетабайта
источник

AZ

Anton Zadorozhniy in Data Engineers
Also known as “gzip bomb”
источник

UD

Uncel Duk in Data Engineers
Если там не гзип бомба, можно сделать первичную конвертацию на любой ноде при желании
источник

P

Pavel in Data Engineers
Uncel Duk
Если там не гзип бомба, можно сделать первичную конвертацию на любой ноде при желании
Одна ж нода ангзип делает всегда. В этом печаль была
источник

UD

Uncel Duk in Data Engineers
Pavel
Одна ж нода ангзип делает всегда. В этом печаль была
я про банальный zcat/pigz через pipe во что нужно
источник

P

Pavel in Data Engineers
Uncel Duk
я про банальный zcat/pigz через pipe во что нужно
Я посоветовал хотя бы gz2 жать 🙂
источник

UD

Uncel Duk in Data Engineers
Pavel
Я посоветовал хотя бы gz2 жать 🙂
Зачем если есть зстандарт
источник

E

Evgeny in Data Engineers
интересно, а есть, кто использует zfs под hdfs? :)
источник

UD

Uncel Duk in Data Engineers
Нечто похожее продает хуавей, но там свои велосипеды и поставщики
источник

UD

Uncel Duk in Data Engineers
oceanstor 100d одно из имен этого поделия
источник

E

Evgeny in Data Engineers
интересненько.. так-то мы тоже используем, но тут скорее "исторически сложилось"
источник

P

Pavel in Data Engineers
Dmitriy Pavlov
Сколько нод Hadoop (включая NN) используется у вас в компании?
Анонимный опрос
5%
2-4
4%
4-8
12%
8-6
17%
16-40
17%
40-100
45%
Больше 100
Проголосовало: 76
Где вариант 0?
источник

ИК

Иван Калининский... in Data Engineers
Vitaly Pismarev
помоему, такая порнуха только в oracle
Начиная с 12 версии есть fetch: эквивалент limit в оракле, ещё и расширенный. А раньше через rownum, если нужно окно - через "стабилизированный" в подзапросе rownum. Ну, или row_number/rank/dense_rank
источник

ИК

Иван Калининский... in Data Engineers
No Name
Вот после ТД в других СУБД мне именно квалифая недоставало особенно сильно, по крайней мере первое время
Если движок открыт-можно сделать себе qualify, в спарк точно можно, но вариант, который я делал, не очень корректно работал, если была вложенная агрегация, требовал фильтр в виде having true
источник

ИК

Иван Калининский... in Data Engineers
Если без sql, то qualify довольно легко реализовать, расширив Dataset API:
ds.withColumn("name", ... over Window...).where(...).drop("name")
источник

T

T in Data Engineers
Я тут чуток слоупок и пропустил тёрки прособесы, приходите в среду в наш клабхаус обсудим там
источник

AZ

Anton Zadorozhniy in Data Engineers
Иван Калининский
Если движок открыт-можно сделать себе qualify, в спарк точно можно, но вариант, который я делал, не очень корректно работал, если была вложенная агрегация, требовал фильтр в виде having true
чтобы сделали нужна мотивация, пока в стандарте нет - мотивация маленькая, только чтобы поймать клиентов терадаты? ну вот сноуфлейк и добавил.. а для инхауса это не так важно, свои разработчики будут писать подзапросы
источник
2021 March 23

KS

K S in Data Engineers
Как можно равномерно сбалансировать входящие данные, которые наверняка не поместятся в спарковский кластер (AWS Glue)? Ещё есть ограничение по времени, не дольше часа, поскольку поступит новая партия данных.
источник