Size: a a a

2019 December 02

A4

Anon 43 in Data Engineers
У кого-нибудь есть примеры кода умножения векторов с MapReduce?
источник

C

Combot in Data Engineers
AllWayzAQueen Oehme has been banned! Reason: CAS ban.
источник
2019 December 03

C

Combot in Data Engineers
Orn Ibrahim O has been banned! Reason: CAS ban.
источник

AL

Artem Likhomanenko in Data Engineers
Здравствуйте, подскажите что почитать по основам? Есть какой то план обучения или кто курсы посоветует? Необходимы знания по проектированию хранилища не структурированных данных, выборки, построению индекса, возможно что то ещё.
источник

Y

Yestay in Data Engineers
Artem Likhomanenko
Здравствуйте, подскажите что почитать по основам? Есть какой то план обучения или кто курсы посоветует? Необходимы знания по проектированию хранилища не структурированных данных, выборки, построению индекса, возможно что то ещё.
Тут Otus хвалили
источник

AL

Artem Likhomanenko in Data Engineers
А есть у кого положительные/отрицательные отзывы по тулзе MapReduceIndexerTool для создания индекса для солара? Или как вы решаете проблему быстрой выборки данных за произвольный период без возможности сразу уточнить запрос?
источник

AL

Artem Likhomanenko in Data Engineers
При условии ограниченного размера хранилища под индекс, любой
источник

AL

Artem Likhomanenko in Data Engineers
Подскажите, а нормальная практика создавать hbase таблицу под поднимаемые данные с hdfs , если рассматривать шаблон schema-on-read ? Или чаще всего мы заранее знаем набор схем с помощью которых у нас созданы на hdfs данные и мы уже преподготовили пустые таблицы по этим схемам?
источник

AL

Artem Likhomanenko in Data Engineers
Простите за нубские вопросы😅
источник

AZ

Anton Zadorozhniy in Data Engineers
Artem Likhomanenko
Подскажите, а нормальная практика создавать hbase таблицу под поднимаемые данные с hdfs , если рассматривать шаблон schema-on-read ? Или чаще всего мы заранее знаем набор схем с помощью которых у нас созданы на hdfs данные и мы уже преподготовили пустые таблицы по этим схемам?
для таблицы в HBase вам придется как минимум ключ выделить, и в остальном ваш вопрос выглядит странно, попробуйте описать юзкейс
источник

AL

Artem Likhomanenko in Data Engineers
Anton Zadorozhniy
для таблицы в HBase вам придется как минимум ключ выделить, и в остальном ваш вопрос выглядит странно, попробуйте описать юзкейс
Есть много данных сырых. Есть описание метамоделей этих данных. Иногда надо поднимать данные с hdfs, если они не нашлись в оперативном хранилище. Есть ограничение на свободное пространство на hdsf. Критерии запроса неизвестны. Т.е. есть сторадж в который льют любые данные, нужно по ним искать, за приемлемое время опираясь на метмодель. Метамодель - это по сути массив name, value, description строк - строк неограниченное количество. В день всего этого добра порядка 6Тб
источник

AZ

Anton Zadorozhniy in Data Engineers
Artem Likhomanenko
Есть много данных сырых. Есть описание метамоделей этих данных. Иногда надо поднимать данные с hdfs, если они не нашлись в оперативном хранилище. Есть ограничение на свободное пространство на hdsf. Критерии запроса неизвестны. Т.е. есть сторадж в который льют любые данные, нужно по ним искать, за приемлемое время опираясь на метмодель. Метамодель - это по сути массив name, value, description строк - строк неограниченное количество. В день всего этого добра порядка 6Тб
а какой "язык" запросов? просто строки по критерию, джоины/агегрегации, FTS?
источник

AL

Artem Likhomanenko in Data Engineers
Предлагалось делать солр индекс за период выбранный пользователем. И потом уже в соларе уточнять запрос. Мне это кажется неверным решением, так как для построения индекса уже будет использоваться мап редьюс. По этому я предложил отдельно хранить метамодели - благо их на много, а уже по этим метамоделям позволять пользователю писать псевдозапрос, который будет искать данные мапредьюсом, Но вот остался вопрос, в каком виде отдать пользователю результат, что бы он ещё смог в нем что то отфильтровать жополнительно
источник

AL

Artem Likhomanenko in Data Engineers
Anton Zadorozhniy
а какой "язык" запросов? просто строки по критерию, джоины/агегрегации, FTS?
Просто строки по критерию
источник

AZ

Anton Zadorozhniy in Data Engineers
Artem Likhomanenko
Просто строки по критерию
а приемлемое время это сколько?
источник

AL

Artem Likhomanenko in Data Engineers
Да, забыл добавить. Это желательно делать на стеки клоудеры(хадуп, хайв, хбейс...)
источник

AL

Artem Likhomanenko in Data Engineers
Anton Zadorozhniy
а приемлемое время это сколько?
До суток
источник

AL

Artem Likhomanenko in Data Engineers
Лучше быстрее)
источник

AZ

Anton Zadorozhniy in Data Engineers
и какие допустимые задержки от инджеста данных до появления в результате?
источник

AL

Artem Likhomanenko in Data Engineers
Есть оперативное хранилище за три месяца, нужно поднимать все что старше
источник