Телеграмм чат группы hadoopusers страница 3520

тут смысл иной: если у вас три группы пайплайнов, то вы можете конечно поднять один кластер, засучить рукава и заняться настройкой планировщика, но вы также можете запустить три разных кластера, отдать их группам целиком

а потом каждая группа может взять кластер размера Х и обработать суточную порцию за сутки, а может взять кластер 6Х и обработать порцию за 4 часа, а потом убить кластер

источник

20:09пожаловаться #5

Anton Zadorozhniy in Data Engineers

более того вы можете разные теги повесить на эти разные кластера, и чарджить ваших пользователей строго за то что они используют

источник

20:10пожаловаться #6

Anton Zadorozhniy in Data Engineers

но вам лучше конечно один большой кластер, так интереснее 😊

источник

20:10пожаловаться #7

Anton Zadorozhniy in Data Engineers

вы меня раскусили)

источник

20:10пожаловаться #8

Dmitry in Data Engineers

ну а вы всерьез встречали энтерпрайзы с тремя группами пайплайнов ?

источник

20:11пожаловаться #9

KrivdaTheTriewe in Data Engineers

Хдфс норм

источник

20:11пожаловаться #10

Anton Zadorozhniy in Data Engineers

я три привел в качестве примера, я работал с клиентами у которых десятки групп, а пайплайнов тысячи

источник

20:12пожаловаться #11

KrivdaTheTriewe in Data Engineers

А данные из вакуума считываются ?

источник

20:14пожаловаться #12

Anton Zadorozhniy in Data Engineers

почему из вакуума? с дисков на других узлах

источник

20:15пожаловаться #13

KrivdaTheTriewe in Data Engineers

На других узлах какие то другие диски ?

источник

20:15пожаловаться #14

Anton Zadorozhniy in Data Engineers

да, на других узлах больше дисков чем локальном узле

источник

20:16пожаловаться #15

KrivdaTheTriewe in Data Engineers

Но считывание идёт с конкретной реплики , на конкретном диске

источник

20:17пожаловаться #16

Anton Zadorozhniy in Data Engineers

да, и с быстрой сетью вам все равно, где этот диск - локально или на другой машине

источник

20:17пожаловаться #17

KrivdaTheTriewe in Data Engineers

Но у вас куча этапов , у вас же не один меп редьюс, спарка бы не было, если бы все в один меп редьюс все засовввалось

источник

20:18пожаловаться #18

T in Data Engineers

+++ ещё и энтропия не будет накапливаться

источник

20:19пожаловаться #19

Dmitry in Data Engineers

нам не интересно обрабатывать суточный инкремент. добрая половина доставляет данные каждые 30 минут, еще часть в кафку. идея поднимать и опускать кластера каждые 30 минут так себе

источник

20:19пожаловаться #20