Телеграмм чат группы hadoopusers страница 1838

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 December 03

AL

Artem Likhomanenko in Data Engineers

Anton Zadorozhniy

я так понимаю у вас больше пока архитектурных вопросов, но в смысле хранилищ что HBase что Solr могут хранить данные без всяких ограничений в схеме

Ну хранить данные в Hbase наверно можно, Но это будут тысячи таблиц с неизвестным количеством столбцов. И надо будет как то группировать данные по этим табличкам

источник

13:01пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Artem Likhomanenko

Ну хранить данные в Hbase наверно можно, Но это будут тысячи таблиц с неизвестным количеством столбцов. И надо будет как то группировать данные по этим табличкам

если у вас схема неизвестна - храните все в одной колонке, и парсите уже на этапе чтения, KV подход

источник

13:02пожаловаться #2

AL

Artem Likhomanenko in Data Engineers

Anton Zadorozhniy

если у вас схема неизвестна - храните все в одной колонке, и парсите уже на этапе чтения, KV подход

А это не долго ли будет?

источник

13:04пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Artem Likhomanenko

А это не долго ли будет?

ну вы делает так сейчас, проблема мб если каждый документ очень большой, тогда и на извлечении и на проводе и на парсинге будет оверхед

источник

13:05пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

но например если у вас документы имеют фиксированные части - вы можете побить по разным колонкам и уже сэкономить

источник

13:08пожаловаться #5

AL

Artem Likhomanenko in Data Engineers

Anton Zadorozhniy

но например если у вас документы имеют фиксированные части - вы можете побить по разным колонкам и уже сэкономить

Есть фиксированые части, но они не очень то помогают выборке, потому что это всего лишь дата и название узла откуда пришли данные. А дата обычно достаточно широко берется.

Но я вас понял, что не стоит чё то тут придумывать.

Просто я так понимаю, если я свои строки положу в одну колонку, то мне придется делать по сути фулскан всегда для поиска значения - это долго к сожалению (
Тут видимо спасет только либо какая то четкая структура либо много места под индекс

источник

13:11пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

я тут только хочу напомнить что преждевременная оптимизация это корень всех зол)

источник

13:15пожаловаться #7

AL

Artem Likhomanenko in Data Engineers

Так она не преждевременная) она назревает, если не сказать больше))

источник

13:15пожаловаться #8

SZ

Sergey Zakharov in Data Engineers

Artem Likhomanenko

Простите, я плохо объясняю. По сути хочется сделать такую систему, что бы результат мапредьюса уже загнать в какое то хранилище которое позволяло бы искать быстро - десятки минут, думаю до получаса, лучше в течение 10 минут. Но проблема в том, что в результате будут возвращаться данные с неизвестной мне схемой и я не могу заранее преподготовить структуру куда загнать результат

А что является результатом мапредьюс задачи? Какие ключи и значения?

источник

15:18пожаловаться #9

AL

Artem Likhomanenko in Data Engineers

Sergey Zakharov

А что является результатом мапредьюс задачи? Какие ключи и значения?

Если я скажу, что все что угодно - вы меня побьете)) результат это куча данных вида {nodeName, date, params[name, value, description]} где param как раз про сути paylod в котором надо искать, но он четко не определен. По сути получается поиск в строке подстроку

источник

15:37пожаловаться #10

FD

Farkhad Dzhum in Data Engineers

Может у кого нибудь есть книга Кей Хорстманн «Scala для нетерпеливых» 2017 года (pdf)? поделитесь пожалуйста

источник

16:11пожаловаться #11

Е

Евгений in Data Engineers

Может у кого нибудь есть книга Кей Хорстманн «Scala для нетерпеливых» 2017 года (pdf)? поделитесь пожалуйста

есть бумажная версия

источник

16:11пожаловаться #12

FD

Farkhad Dzhum in Data Engineers

нужна электронная

источник

16:12пожаловаться #13

Е

Евгений in Data Engineers

нужна электронная

не гуглится?

источник

16:12пожаловаться #14

FD

Farkhad Dzhum in Data Engineers

в этом и проблема, что нет( везде только 2013

источник

16:13пожаловаться #15

SZ

Sergey Zakharov in Data Engineers

Artem Likhomanenko

Если я скажу, что все что угодно - вы меня побьете)) результат это куча данных вида {nodeName, date, params[name, value, description]} где param как раз про сути paylod в котором надо искать, но он четко не определен. По сути получается поиск в строке подстроку

Ну на вскидку, как уже тут писали, можно хранить документы в hbase, спроектировав ключ и настроив ttl. Далее через lily hbase indexer (в клаудере это вроде key-valye store indexer service) реплицировать данные из hbase в solr-кластер для полнотекстового поиска по ним. В solr есть schemaless-mode, можно включить этот режим, либо, настроив data import handler в конфиге, преобразовывать входящий документ в необходимый формат.

источник

16:13пожаловаться #16

Е

Евгений in Data Engineers

в этом и проблема, что нет( везде только 2013

да брось

источник

16:14пожаловаться #17

Е

Евгений in Data Engineers

https://pda.litres.ru/key-horstmann/scala-dlya-neterpelivyh-6089833/

Scala для нетерпеливых – Кей Хорстманн

Книга в сжатой форме описывает, что можно делать на языке Scala, и как это делать. Кей Хорстманн, автор всемирного бестселлера «Core Java», дает быстрое и практическое введение в язык программирования, основанное на примерах …

источник

16:14пожаловаться #18

FD

Farkhad Dzhum in Data Engineers

мы не правильно друг друга поняли, я хочу бесплатно её скачать 😄

источник

16:15пожаловаться #19

Е

Евгений in Data Engineers

мы не правильно друг друга поняли, я хочу бесплатно её скачать 😄

а за такое и забанить могут)

источник

16:15пожаловаться #20