Size: a a a

2019 December 03

OI

Oleg Ilinsky in Data Engineers
ну типа, окей гугл
источник

AL

Artem Likhomanenko in Data Engineers
Sergey Zakharov
Экспериментируйте =) В solr можно не хранить сами данные, а только индексы, которые будут возвращать id документа, которы потом можно забирать из hbase.
Это при условии что не надо полнотекст, если я верно понимаю? И ещё такой момент, не очень понял, вот у меня есть в hbase колонка с моим неструктурированным params, по которой я хочу искать. Что бы мне сделать полнотекст мне надо все что есть загрузить в индекс, верно?
источник

SZ

Sergey Zakharov in Data Engineers
Artem Likhomanenko
Это при условии что не надо полнотекст, если я верно понимаю? И ещё такой момент, не очень понял, вот у меня есть в hbase колонка с моим неструктурированным params, по которой я хочу искать. Что бы мне сделать полнотекст мне надо все что есть загрузить в индекс, верно?
Нет, полнотекст - это один из вариантов индексирования. Каким образом индексировать и какие поля в документе, описывается схемой. В целях экономии места на solr-кластере, можно хранить там только индексы, не сохраняя сами данные, по которым эти индексы были построены
источник

AL

Artem Likhomanenko in Data Engineers
Sergey Zakharov
Нет, полнотекст - это один из вариантов индексирования. Каким образом индексировать и какие поля в документе, описывается схемой. В целях экономии места на solr-кластере, можно хранить там только индексы, не сохраняя сами данные, по которым эти индексы были построены
я верно понял, что натравив solr на колонку с моим неструктурированным params он сможет создать полнотекстовый индек?
источник

SZ

Sergey Zakharov in Data Engineers
Artem Likhomanenko
я верно понял, что натравив solr на колонку с моим неструктурированным params он сможет создать полнотекстовый индек?
Верно
источник

AL

Artem Likhomanenko in Data Engineers
Sergey Zakharov
Верно
занятно.
подскажите, если в курсе, есть ли смысл хранить данные в  hbase по сравнению с хранением данных напрямую в hdsf? Я все равно не улавливаю пользы от хранения в hbase неструктурированных params. Для меня, что в hbase что на hdfs это просто "помойка" и я могу, наверно, что там что там строить полнотекст или если я храню на hdfs то в индекс solr мне загружаются уже и сами данные?
источник

SZ

Sergey Zakharov in Data Engineers
Artem Likhomanenko
занятно.
подскажите, если в курсе, есть ли смысл хранить данные в  hbase по сравнению с хранением данных напрямую в hdsf? Я все равно не улавливаю пользы от хранения в hbase неструктурированных params. Для меня, что в hbase что на hdfs это просто "помойка" и я могу, наверно, что там что там строить полнотекст или если я храню на hdfs то в индекс solr мне загружаются уже и сами данные?
Нет единственно верного решения, делайте, как удобнее для конкретной задачи )) Может, вам вообще ничего не нужно, достаточно запускать mapreduce по hdfs
источник

K

KrivdaTheTriewe in Data Engineers
Farkhad Dzhum
если делится знаниями, это бан. То что то в этом мире пошло не так
купите книгу пожалуйста, если найти не можете,или мы продругое ресурс
источник

AL

Artem Likhomanenko in Data Engineers
Sergey Zakharov
Нет единственно верного решения, делайте, как удобнее для конкретной задачи )) Может, вам вообще ничего не нужно, достаточно запускать mapreduce по hdfs
т.е. все эмпирически?
источник

AL

Artem Likhomanenko in Data Engineers
ну и опять, что такое "удобно"?) я так понимаю, есть оптимальное хранение под конкретную задачу и не оптимальное - наверно вы это и имели ввиду. В общем у меня все равно остался вопрос. Мне кажется, что без основ я не смогу найти ответ. А чего бы для этого почитать? Hadoop: The Definitive Guide для начала достаточно или это не про то?
источник

SZ

Sergey Zakharov in Data Engineers
Artem Likhomanenko
т.е. все эмпирически?
в вашем случае hdfs может просто хранить информацию и делать тяжелые фоновые mapreduce-задачи, а связка hbase+solr позволит хранить "оперативный" срез данных для рилтайм запросов.
источник

AL

Artem Likhomanenko in Data Engineers
Sergey Zakharov
в вашем случае hdfs может просто хранить информацию и делать тяжелые фоновые mapreduce-задачи, а связка hbase+solr позволит хранить "оперативный" срез данных для рилтайм запросов.
спасибо
источник

A4

Anon 43 in Data Engineers
>этапы  исполнения  приложения  MapReduce  в  Hadoop:  map,reduce,  sort,  shuffle, combine.

нашел про все кроме sort. Где почитать, или в кратце что это?
источник

A4

Anon 43 in Data Engineers
понятно что сортировка, но именно в hadoop это что?
источник

MV

Michael Voloshin in Data Engineers
Anon 43
понятно что сортировка, но именно в hadoop это что?
источник

MV

Michael Voloshin in Data Engineers
3 раздел, там объясняется - может поможет
источник

MV

Michael Voloshin in Data Engineers
Смотрите видео, презентации достаточно сжатые
источник

A4

Anon 43 in Data Engineers
спасибо!
источник
2019 December 04

ДП

Даниил Пилипенко in Data Engineers
Коллеги, всем привет) Может кто-то помощь с запуском приложения WordCount  на Java в кластере?
источник

ДП

Даниил Пилипенко in Data Engineers
Я написал программу для подсчёта количеств слов (классическая задача), и в конце написал запись в файл:

counts.saveAsTextFile(args[1]);


Если я JAR запускаю в режиме клиента (—deploy-mode client), то всё хорошо. Но если в режиме кластера, то постоянно возникают какие-то проблемы.

Сначала была проблема в том, что папка назначения уже существует (я указал папку в args[1], и она у всех экземпляров приложения одна и та же). Потом я установил параметр:

spark.hadoop.validateOutputSpecs        false


Файл я сделал большой - 65 Мб. Теперь все executor'ы (а запускается их 4) падают с ошибкой 137. Судя по всему, что-то там падает по памяти. Думая, что он автоматом делит задачу на несколько мелких, указал —num-executors 50, но всё равно они падают.

Я предполагаю, что я что-то не так в целом делаю / понимаю. Мне же надо, по сути, чтобы он делил задачу на несколько executor-ов. Он это делает автоматически в RDD? Или надо как-то специально это прописывать?
источник