Size: a a a

2021 April 21

PK

Pavel Klemenkov in Data Engineers
Справеддливо. Типа как писать в 100500 маленьких партиций, а потом отдельно делать compaction
источник

D

Dmitry in Data Engineers
имхо это для каких-то игровых задач, у энтерпрайза просто же бесконечно идут ETL, не понимать же кластер на каждый ETL или скоринг
источник

AZ

Anton Zadorozhniy in Data Engineers
хм, видимо те кому я строил даталейки это не настоящие энтерпрайзы)
источник

D

Dmitry in Data Engineers
или строил на терадате. одно из двух ;)
источник

AZ

Anton Zadorozhniy in Data Engineers
тут смысл иной: если у вас три группы пайплайнов, то вы можете конечно поднять один кластер, засучить рукава и заняться настройкой планировщика, но вы также можете запустить три разных кластера, отдать их группам целиком

а потом каждая группа может взять кластер размера Х и обработать суточную порцию за сутки, а может взять кластер 6Х и обработать порцию за 4 часа, а потом убить кластер
источник

AZ

Anton Zadorozhniy in Data Engineers
более того вы можете разные теги повесить на эти разные кластера, и чарджить ваших пользователей строго за то что они используют
источник

AZ

Anton Zadorozhniy in Data Engineers
но вам лучше конечно один большой кластер, так интереснее 😊
источник

AZ

Anton Zadorozhniy in Data Engineers
вы меня раскусили)
источник

D

Dmitry in Data Engineers
ну а вы всерьез встречали энтерпрайзы с тремя группами пайплайнов ?
источник

K

KrivdaTheTriewe in Data Engineers
Хдфс норм
источник

AZ

Anton Zadorozhniy in Data Engineers
я три привел в качестве примера, я работал с клиентами у которых десятки групп, а пайплайнов тысячи
источник

K

KrivdaTheTriewe in Data Engineers
А данные из вакуума считываются ?
источник

AZ

Anton Zadorozhniy in Data Engineers
почему из вакуума? с дисков на других узлах
источник

K

KrivdaTheTriewe in Data Engineers
На других узлах какие то другие диски ?
источник

AZ

Anton Zadorozhniy in Data Engineers
да, на других узлах больше дисков чем локальном узле
источник

K

KrivdaTheTriewe in Data Engineers
Но считывание идёт с конкретной реплики , на конкретном диске
источник

AZ

Anton Zadorozhniy in Data Engineers
да, и с быстрой сетью вам все равно, где этот диск - локально или на другой машине
источник

K

KrivdaTheTriewe in Data Engineers
Но у вас куча этапов , у вас же не один меп редьюс, спарка бы не было, если бы все в один меп редьюс все засовввалось
источник

T

T in Data Engineers
+++ ещё и энтропия не будет накапливаться
источник

D

Dmitry in Data Engineers
нам не интересно обрабатывать суточный инкремент. добрая половина доставляет данные каждые 30 минут, еще часть в кафку. идея поднимать и опускать кластера каждые 30 минут так себе
источник