Телеграмм чат группы hadoopusers страница 1942

Выходит , что один воркер ( одна таска) все же работает в ситуации , когда она один блок читает с одного диска и соответственно ее скорость ограничена этими 100 мб/сек

источник

18:07пожаловаться #8

Alex in Data Engineers

Ну один блок да, ограничен

источник

18:08пожаловаться #9

Alex in Data Engineers

Но если есть репликация, то ничего не мешает читать на разных машинках этот блок в параллели

источник

18:08пожаловаться #10

Tatiana in Data Engineers

А вот если на датаноде работают одновременно 2 таски , то они потенциально могут и с большей скоростью читать , если данные на разных дисках. Но тут вопрос как тот же hdfs пишет блоки. Будет ли он стараться записывать разные блоки одного и того же файла на разные диски

источник

18:10пожаловаться #11

Alex in Data Engineers

А это никто не предскажет :) никто не гарантирует что они даже на одной машинке окажутся, не говоря об одном диске

источник

18:11пожаловаться #12

Alex in Data Engineers

А если добавить что в hdfs для экономии места есть и их внутренний raid5 то все ещё веселее

источник

18:12пожаловаться #13

Tatiana in Data Engineers

Alex

Но это плохо тогда. Если нет никаких политик. Тогда можно рассчитывать только на скорость в условных 100 м/с на каждой датаноде

источник

18:12пожаловаться #14

Alex in Data Engineers

Почему?

источник

18:13пожаловаться #15

Alex in Data Engineers

Вы теоретизируете, а люди в проде гоняют и проблем не видят :)

источник

18:14пожаловаться #16

Alex in Data Engineers

Запущены обычно не 1 и не 2 таски на кластере, причём совершенно разных задач, так что все диски обычно более менее равномерно загружены

источник

18:15пожаловаться #17

Tatiana in Data Engineers

Alex

Почему?

Трудно тогда оценить время , например той же группировки набора данных в N гигабайт

источник

18:16пожаловаться #18

Alex in Data Engineers

Простой пример:
Кластер на 100 машин (в каждой по 100 ядер)

Запущенно 600 приложений

В каждом приложении воркеров достаточно, так что вы выедаете почти все ядра

Будете вы в этом случае думать чтобы блоки отдельного файла точно не оказались на одном диске?

источник

18:18пожаловаться #19

Evgenij in Data Engineers

В hdfs есть балансировка данных по надах

источник

18:20пожаловаться #20