Телеграмм чат группы hadoopusers страница 1836

Здравствуйте, подскажите что почитать по основам? Есть какой то план обучения или кто курсы посоветует? Необходимы знания по проектированию хранилища не структурированных данных, выборки, построению индекса, возможно что то ещё.

источник

05:38пожаловаться #4

Y

Yestay in Data Engineers

Artem Likhomanenko

Здравствуйте, подскажите что почитать по основам? Есть какой то план обучения или кто курсы посоветует? Необходимы знания по проектированию хранилища не структурированных данных, выборки, построению индекса, возможно что то ещё.

Тут Otus хвалили

источник

06:45пожаловаться #5

AL

Artem Likhomanenko in Data Engineers

А есть у кого положительные/отрицательные отзывы по тулзе MapReduceIndexerTool для создания индекса для солара? Или как вы решаете проблему быстрой выборки данных за произвольный период без возможности сразу уточнить запрос?

источник

07:29пожаловаться #6

AL

Artem Likhomanenko in Data Engineers

При условии ограниченного размера хранилища под индекс, любой

источник

07:31пожаловаться #7

AL

Artem Likhomanenko in Data Engineers

Подскажите, а нормальная практика создавать hbase таблицу под поднимаемые данные с hdfs , если рассматривать шаблон schema-on-read ? Или чаще всего мы заранее знаем набор схем с помощью которых у нас созданы на hdfs данные и мы уже преподготовили пустые таблицы по этим схемам?

источник

12:01пожаловаться #8

AL

Artem Likhomanenko in Data Engineers

Простите за нубские вопросы😅

источник

12:02пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

Artem Likhomanenko

Подскажите, а нормальная практика создавать hbase таблицу под поднимаемые данные с hdfs , если рассматривать шаблон schema-on-read ? Или чаще всего мы заранее знаем набор схем с помощью которых у нас созданы на hdfs данные и мы уже преподготовили пустые таблицы по этим схемам?

для таблицы в HBase вам придется как минимум ключ выделить, и в остальном ваш вопрос выглядит странно, попробуйте описать юзкейс

источник

12:05пожаловаться #10

AL

Artem Likhomanenko in Data Engineers

Anton Zadorozhniy

для таблицы в HBase вам придется как минимум ключ выделить, и в остальном ваш вопрос выглядит странно, попробуйте описать юзкейс

Есть много данных сырых. Есть описание метамоделей этих данных. Иногда надо поднимать данные с hdfs, если они не нашлись в оперативном хранилище. Есть ограничение на свободное пространство на hdsf. Критерии запроса неизвестны. Т.е. есть сторадж в который льют любые данные, нужно по ним искать, за приемлемое время опираясь на метмодель. Метамодель - это по сути массив name, value, description строк - строк неограниченное количество. В день всего этого добра порядка 6Тб

источник

12:10пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

Artem Likhomanenko

Есть много данных сырых. Есть описание метамоделей этих данных. Иногда надо поднимать данные с hdfs, если они не нашлись в оперативном хранилище. Есть ограничение на свободное пространство на hdsf. Критерии запроса неизвестны. Т.е. есть сторадж в который льют любые данные, нужно по ним искать, за приемлемое время опираясь на метмодель. Метамодель - это по сути массив name, value, description строк - строк неограниченное количество. В день всего этого добра порядка 6Тб

а какой "язык" запросов? просто строки по критерию, джоины/агегрегации, FTS?

источник

12:14пожаловаться #12

AL

Artem Likhomanenko in Data Engineers

Предлагалось делать солр индекс за период выбранный пользователем. И потом уже в соларе уточнять запрос. Мне это кажется неверным решением, так как для построения индекса уже будет использоваться мап редьюс. По этому я предложил отдельно хранить метамодели - благо их на много, а уже по этим метамоделям позволять пользователю писать псевдозапрос, который будет искать данные мапредьюсом, Но вот остался вопрос, в каком виде отдать пользователю результат, что бы он ещё смог в нем что то отфильтровать жополнительно

источник

12:14пожаловаться #13

AL

Artem Likhomanenko in Data Engineers

Anton Zadorozhniy

а какой "язык" запросов? просто строки по критерию, джоины/агегрегации, FTS?

Просто строки по критерию

источник

12:15пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Artem Likhomanenko