Телеграмм чат группы hadoopusers страница 1840

16:25пожаловаться #1

AL

Экспериментируйте =) В solr можно не хранить сами данные, а только индексы, которые будут возвращать id документа, которы потом можно забирать из hbase.

Это при условии что не надо полнотекст, если я верно понимаю? И ещё такой момент, не очень понял, вот у меня есть в hbase колонка с моим неструктурированным params, по которой я хочу искать. Что бы мне сделать полнотекст мне надо все что есть загрузить в индекс, верно?

16:25пожаловаться #2

SZ

Это при условии что не надо полнотекст, если я верно понимаю? И ещё такой момент, не очень понял, вот у меня есть в hbase колонка с моим неструктурированным params, по которой я хочу искать. Что бы мне сделать полнотекст мне надо все что есть загрузить в индекс, верно?

Нет, полнотекст - это один из вариантов индексирования. Каким образом индексировать и какие поля в документе, описывается схемой. В целях экономии места на solr-кластере, можно хранить там только индексы, не сохраняя сами данные, по которым эти индексы были построены

16:28пожаловаться #3

AL

Нет, полнотекст - это один из вариантов индексирования. Каким образом индексировать и какие поля в документе, описывается схемой. В целях экономии места на solr-кластере, можно хранить там только индексы, не сохраняя сами данные, по которым эти индексы были построены

я верно понял, что натравив solr на колонку с моим неструктурированным params он сможет создать полнотекстовый индек?

16:30пожаловаться #4

SZ

я верно понял, что натравив solr на колонку с моим неструктурированным params он сможет создать полнотекстовый индек?

Верно

16:31пожаловаться #5

AL

Верно

занятно.
подскажите, если в курсе, есть ли смысл хранить данные в hbase по сравнению с хранением данных напрямую в hdsf? Я все равно не улавливаю пользы от хранения в hbase неструктурированных params. Для меня, что в hbase что на hdfs это просто "помойка" и я могу, наверно, что там что там строить полнотекст или если я храню на hdfs то в индекс solr мне загружаются уже и сами данные?

16:34пожаловаться #6

SZ

занятно.
подскажите, если в курсе, есть ли смысл хранить данные в hbase по сравнению с хранением данных напрямую в hdsf? Я все равно не улавливаю пользы от хранения в hbase неструктурированных params. Для меня, что в hbase что на hdfs это просто "помойка" и я могу, наверно, что там что там строить полнотекст или если я храню на hdfs то в индекс solr мне загружаются уже и сами данные?

Нет единственно верного решения, делайте, как удобнее для конкретной задачи )) Может, вам вообще ничего не нужно, достаточно запускать mapreduce по hdfs

16:40пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

Farkhad Dzhum

если делится знаниями, это бан. То что то в этом мире пошло не так

купите книгу пожалуйста, если найти не можете,или мы продругое ресурс

16:40пожаловаться #8

AL

Нет единственно верного решения, делайте, как удобнее для конкретной задачи )) Может, вам вообще ничего не нужно, достаточно запускать mapreduce по hdfs

т.е. все эмпирически?

16:40пожаловаться #9

AL

ну и опять, что такое "удобно"?) я так понимаю, есть оптимальное хранение под конкретную задачу и не оптимальное - наверно вы это и имели ввиду. В общем у меня все равно остался вопрос. Мне кажется, что без основ я не смогу найти ответ. А чего бы для этого почитать? Hadoop: The Definitive Guide для начала достаточно или это не про то?

16:43пожаловаться #10

SZ

т.е. все эмпирически?

в вашем случае hdfs может просто хранить информацию и делать тяжелые фоновые mapreduce-задачи, а связка hbase+solr позволит хранить "оперативный" срез данных для рилтайм запросов.

16:57пожаловаться #11

AL

в вашем случае hdfs может просто хранить информацию и делать тяжелые фоновые mapreduce-задачи, а связка hbase+solr позволит хранить "оперативный" срез данных для рилтайм запросов.

спасибо

16:58пожаловаться #12

A4

Anon 43 in Data Engineers

>этапы исполнения приложения MapReduce в Hadoop: map,reduce, sort, shuffle, combine.

нашел про все кроме sort. Где почитать, или в кратце что это?

22:10пожаловаться #13

A4

Anon 43 in Data Engineers

понятно что сортировка, но именно в hadoop это что?

https://stepik.org/course/150/syllabus?next=

22:10пожаловаться #14

MV

Michael Voloshin in Data Engineers

Anon 43

понятно что сортировка, но именно в hadoop это что?

Stepik: online education

Hadoop. Система для обработки больших объемов данных

Курс посвящен методам обработки больших объемов данных (BigData) с помощью системы Hadoop. После прохождения курса вы получите знания основных способов хранения и методов обработки больших объемов данных, поймете принципы работы распределенных систем в контексте фреймворка Hadoop и освоите практические навыки разработки приложений, используя программную модель MapReduce.

22:33пожаловаться #15

MV

Michael Voloshin in Data Engineers

3 раздел, там объясняется - может поможет

22:33пожаловаться #16

MV

Michael Voloshin in Data Engineers

Смотрите видео, презентации достаточно сжатые

22:34пожаловаться #17

A4

Anon 43 in Data Engineers

спасибо!

Даниил Пилипенко in Data Engineers

22:35пожаловаться #18

2019 December 04

ДП

Коллеги, всем привет) Может кто-то помощь с запуском приложения WordCount на Java в кластере?

Даниил Пилипенко in Data Engineers

10:54пожаловаться #19

ДП

Я написал программу для подсчёта количеств слов (классическая задача), и в конце написал запись в файл:

counts.saveAsTextFile(args[1]);

Если я JAR запускаю в режиме клиента (—deploy-mode client), то всё хорошо. Но если в режиме кластера, то постоянно возникают какие-то проблемы.

Сначала была проблема в том, что папка назначения уже существует (я указал папку в args[1], и она у всех экземпляров приложения одна и та же). Потом я установил параметр:

spark.hadoop.validateOutputSpecs        false

Файл я сделал большой - 65 Мб. Теперь все executor'ы (а запускается их 4) падают с ошибкой 137. Судя по всему, что-то там падает по памяти. Думая, что он автоматом делит задачу на несколько мелких, указал —num-executors 50, но всё равно они падают.

Я предполагаю, что я что-то не так в целом делаю / понимаю. Мне же надо, по сути, чтобы он делил задачу на несколько executor-ов. Он это делает автоматически в RDD? Или надо как-то специально это прописывать?