Телеграмм чат группы hadoopusers страница 3067

11:57пожаловаться #1

ИК

Alex

вот тут сразу и вопрос:

кто-либо пробовал этот carbon data в продакшене?
https://carbondata.apache.org/

Пробовал, никому не советую

Минусы: Пришлось доработать чуть-чуть, код оставил неприятное впечатление, можно было сделать лучше. Уплотнение как цена за быстрый update/delete есть, конечно, но сделать его на ограниченных ресурсах затруднительно. Также не совсем понял, как можно влиять на размер файла, но тогда еще я не сильно упирался, не было критично. Куча проблем с совместимостью версий hive, насчет impala - полтора года назад поддержки не было

Из плюсов - строки по индексу достаются невероятно быстро для файлового формата, впрочем, хорошая реализация бакетов должна работать примерно также. Быстрые изменения данных, изолированные от текущих чтений. Относительно удобная организация таблицы по сегментам. Возможность создания mat views с автообновлением.

11:59пожаловаться #2

А

в орке файл побит на страйпы, где хранится статистика (min/max) и части файла могут не читаться целиком, если нет соотвествия в pushdown фильтре

11:59пожаловаться #3

A

Alex in Data Engineers

@Pihel в паркете всё точно так же сделано, в орке вроде ещё блумфильтры есть, в паркете не уверен

12:00пожаловаться #4

А

Alex

@Pihel в паркете всё точно так же сделано, в орке вроде ещё блумфильтры есть, в паркете не уверен

да, все так, есть еще блум фильтры

12:00пожаловаться #5

A

Alex in Data Engineers

@KaiNie_R импала да, не было и маловероятно что когда-либо будет, они даже орк не завезли нормально
скажем спасибо плюсовым реализациям форматов в импале

12:01пожаловаться #6

ИК

Блум в паркете есть (не пользовался, но статью читал), но вот когда я стал смотреть min/max в футере паркета, они сохранены как байтовые массивы, а байты в Java имеют знак и не всегда совпадали с представлением в беззнаковом виде, тот же DecimalType или строка в UTF-8, в данных были значения как больше max из футера, так и меньше min из футера! Я был очень расстроен, потому что хотел их взять и использовать в явном виде

12:04пожаловаться #7

ИК

Может содержание футера parquet зависит от реализации writer, не разбирался, потому что не представлял, как заменить эту реализацию, не был уверен, что записанные файлы читаться пользователями без проблем. Просто стал делать свои бакеты и складывать граничные значения отдельно, по этой информации можно получить отдельные строки за секунды на десятках терабайт (400000-600000 файлов). Разумеется, если обращаться по ключу, который используется в бакетах, по другим полям так не сработает, и это вполне естественно

12:11пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

Кстати если кому-то надо сделать публикацию (или ведет студентов которым надо), отличная тема - обзор работы PDO по Parquet/ORC для разных компьют фреймворков - и в журнал возьмут, и на конференцию.. У меня был студент который было начал, но отвалился в середине семестра :(

12:12пожаловаться #9

UD

Uncel Duk in Data Engineers

Anton Zadorozhniy

в куду вот есть primary key index, но мы все знаем где куду, хнык

Похоронили штоле?

12:16пожаловаться #10

KS

K S in Data Engineers

Как лучше смерджить куски 10ГБ данных с 20 шардов при размере оперативки в 65ГБ? Задача сделать один паркет файл и присоединить к hive table.

12:20пожаловаться #11

ИК

Anton Zadorozhniy

Кстати если кому-то надо сделать публикацию (или ведет студентов которым надо), отличная тема - обзор работы PDO по Parquet/ORC для разных компьют фреймворков - и в журнал возьмут, и на конференцию.. У меня был студент который было начал, но отвалился в середине семестра :(

Публикации часто ограничиваются тем, что показывают планчик spark, в котором видно pushed-down predicate ‘x’=42, спасибо, так и мы можем)) Хорошо бы сделать действительно жирную статью, где и плюсы и минусы, и как вообще к этому подойти. Но я вот работаю только с parquet, а тут я видел ссылку на интересный материал по ORC, но паркет там не упоминался. Если делать коллективно, значит надо договариваться, обмениваться опытом, работать в общем ^^

12:23пожаловаться #12

KS

K S in Data Engineers

На Rust бы допилили поддержку parquet, было бы здорово.

12:27пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Uncel Duk

Похоронили штоле?

не то чтобы похоронили, но сообщество очень маленькое и adoption снижается

12:28пожаловаться #14

KS

K S in Data Engineers

Для простых кейсов pyarrow работает, но на больших файлах вылетает.

12:28пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Иван Калининский

Публикации часто ограничиваются тем, что показывают планчик spark, в котором видно pushed-down predicate ‘x’=42, спасибо, так и мы можем)) Хорошо бы сделать действительно жирную статью, где и плюсы и минусы, и как вообще к этому подойти. Но я вот работаю только с parquet, а тут я видел ссылку на интересный материал по ORC, но паркет там не упоминался. Если делать коллективно, значит надо договариваться, обмениваться опытом, работать в общем ^^

публикации разные бывают, с простым планом спарка врядли прям возьмут в хороший журнал, мой поинт что это должны делать люди в академии, коммерческие работодатели если и платят за такие тесты - то никому потом их не покажут

12:29пожаловаться #16

А

Иван Калининский

Публикации часто ограничиваются тем, что показывают планчик spark, в котором видно pushed-down predicate ‘x’=42, спасибо, так и мы можем)) Хорошо бы сделать действительно жирную статью, где и плюсы и минусы, и как вообще к этому подойти. Но я вот работаю только с parquet, а тут я видел ссылку на интересный материал по ORC, но паркет там не упоминался. Если делать коллективно, значит надо договариваться, обмениваться опытом, работать в общем ^^

можно ссылку на орк? мы активно в хайв испольузем орк

12:43пожаловаться #17

А

я немного исследовал только влияние размера страйпа и наличие блум фильтров

12:44пожаловаться #18

ИК

Оптимизация хранения данных в Orc для Hive

Алексей

можно ссылку на орк? мы активно в хайв испольузем орк

Конечно можно, я думаю, вам будет приятно увидеть свой материал, впрочем, вряд ли там будет что-то для вас новое и неизвестное ))
http://blog.skahin.ru/2019/08/orc.html

blog.skahin.ru

ORC: формат файла Параметры по умолчанию Максимальная доля уникальных значений для создания справочника ...

12:57пожаловаться #19

А

Оптимизация хранения данных в Orc для Hive

Иван Калининский

Конечно можно, я думаю, вам будет приятно увидеть свой материал, впрочем, вряд ли там будет что-то для вас новое и неизвестное ))
http://blog.skahin.ru/2019/08/orc.html

blog.skahin.ru

ORC: формат файла Параметры по умолчанию Максимальная доля уникальных значений для создания справочника ...

:)