Size: a a a

2019 December 03

AL

Artem Likhomanenko in Data Engineers
Anton Zadorozhniy
я так понимаю у вас больше пока архитектурных вопросов, но в смысле хранилищ что HBase что Solr могут хранить данные без всяких ограничений в схеме
Ну хранить данные в Hbase наверно можно, Но это будут тысячи таблиц с неизвестным количеством столбцов. И надо будет как то группировать данные по этим табличкам
источник

AZ

Anton Zadorozhniy in Data Engineers
Artem Likhomanenko
Ну хранить данные в Hbase наверно можно, Но это будут тысячи таблиц с неизвестным количеством столбцов. И надо будет как то группировать данные по этим табличкам
если у вас схема неизвестна - храните все в одной колонке, и парсите уже на этапе чтения, KV подход
источник

AL

Artem Likhomanenko in Data Engineers
Anton Zadorozhniy
если у вас схема неизвестна - храните все в одной колонке, и парсите уже на этапе чтения, KV подход
А это не долго ли будет?
источник

AZ

Anton Zadorozhniy in Data Engineers
Artem Likhomanenko
А это не долго ли будет?
ну вы делает так сейчас, проблема мб если каждый документ очень большой, тогда и на извлечении и на проводе и на парсинге будет оверхед
источник

AZ

Anton Zadorozhniy in Data Engineers
но например если у вас документы имеют фиксированные части - вы можете побить по разным колонкам и уже сэкономить
источник

AL

Artem Likhomanenko in Data Engineers
Anton Zadorozhniy
но например если у вас документы имеют фиксированные части - вы можете побить по разным колонкам и уже сэкономить
Есть фиксированые части, но они не очень то помогают выборке, потому что это всего лишь дата и название узла откуда пришли данные. А дата обычно достаточно широко берется.

Но я вас понял, что не стоит чё то тут придумывать.

Просто я так понимаю, если я свои строки положу в одну колонку, то мне придется делать по сути фулскан всегда для поиска значения - это долго к сожалению (
Тут видимо спасет только либо какая то четкая структура либо много места под индекс
источник

AZ

Anton Zadorozhniy in Data Engineers
я тут только хочу напомнить что преждевременная оптимизация это корень всех зол)
источник

AL

Artem Likhomanenko in Data Engineers
Так она не преждевременная) она назревает, если не сказать больше))
источник

SZ

Sergey Zakharov in Data Engineers
Artem Likhomanenko
Простите, я плохо объясняю. По сути хочется сделать такую систему, что бы результат мапредьюса уже загнать в какое то хранилище которое позволяло бы искать быстро - десятки минут, думаю до получаса, лучше в течение 10 минут. Но проблема в том, что в результате будут возвращаться данные с неизвестной мне схемой и я не могу заранее преподготовить структуру куда загнать результат
А что является результатом мапредьюс задачи? Какие ключи и значения?
источник

AL

Artem Likhomanenko in Data Engineers
Sergey Zakharov
А что является результатом мапредьюс задачи? Какие ключи и значения?
Если я скажу, что все что угодно - вы меня побьете)) результат это куча данных вида {nodeName, date, params[name, value, description]} где param как раз про сути paylod в котором надо искать, но он четко не определен. По сути получается поиск в строке подстроку
источник

FD

Farkhad Dzhum in Data Engineers
Может у кого нибудь есть книга Кей Хорстманн «Scala для нетерпеливых» 2017 года (pdf)? поделитесь пожалуйста
источник

Е

Евгений in Data Engineers
Farkhad Dzhum
Может у кого нибудь есть книга Кей Хорстманн «Scala для нетерпеливых» 2017 года (pdf)? поделитесь пожалуйста
есть бумажная версия
источник

FD

Farkhad Dzhum in Data Engineers
нужна электронная
источник

Е

Евгений in Data Engineers
Farkhad Dzhum
нужна электронная
не гуглится?
источник

FD

Farkhad Dzhum in Data Engineers
в этом и проблема, что нет( везде только 2013
источник

SZ

Sergey Zakharov in Data Engineers
Artem Likhomanenko
Если я скажу, что все что угодно - вы меня побьете)) результат это куча данных вида {nodeName, date, params[name, value, description]} где param как раз про сути paylod в котором надо искать, но он четко не определен. По сути получается поиск в строке подстроку
Ну на вскидку, как уже тут писали, можно хранить документы в hbase, спроектировав ключ и настроив ttl. Далее через lily hbase indexer (в клаудере это вроде key-valye store indexer service) реплицировать данные из hbase в solr-кластер для полнотекстового поиска по ним. В solr есть schemaless-mode, можно включить этот режим, либо, настроив data import handler в конфиге, преобразовывать входящий документ в необходимый формат.
источник

Е

Евгений in Data Engineers
Farkhad Dzhum
в этом и проблема, что нет( везде только 2013
да брось
источник

Е

Евгений in Data Engineers
источник

FD

Farkhad Dzhum in Data Engineers
мы не правильно друг друга поняли, я хочу бесплатно её скачать 😄
источник

Е

Евгений in Data Engineers
Farkhad Dzhum
мы не правильно друг друга поняли, я хочу бесплатно её скачать 😄
а за такое и забанить могут)
источник