Size: a a a

2020 January 06

A

Alex in Data Engineers
/mnt/disk1
/mnt/disk2
И тд
источник

A

Alex in Data Engineers
Первый блок файла на первый диск, второй блок на второй
источник

T

Tatiana in Data Engineers
Alex
Первый блок файла на первый диск, второй блок на второй
А блоки эти какого размера ?
источник

A

Alex in Data Engineers
Настраиваются
источник

A

Alex in Data Engineers
Можно 64мб, можно 1 гб
источник

A

Alex in Data Engineers
Хадуп ведь про параллельную обработку
источник

A

Alex in Data Engineers
Когда один воркер одну часть молотит, второй другую часть
источник

T

Tatiana in Data Engineers
Alex
Когда один воркер одну часть молотит, второй другую часть
Выходит , что один воркер ( одна таска) все же работает в ситуации , когда она один блок читает с одного диска и соответственно ее скорость ограничена этими 100 мб/сек
источник

A

Alex in Data Engineers
Ну один блок да, ограничен
источник

A

Alex in Data Engineers
Но если есть репликация, то ничего не мешает читать на разных машинках этот блок в параллели
источник

T

Tatiana in Data Engineers
А вот если на датаноде работают одновременно  2 таски , то они потенциально могут и с большей скоростью читать , если данные на разных дисках. Но тут вопрос как тот же hdfs пишет блоки. Будет ли он стараться записывать разные блоки одного и того же файла на разные диски
источник

A

Alex in Data Engineers
А это никто не предскажет :) никто не гарантирует что они даже на одной машинке окажутся, не говоря об одном диске
источник

A

Alex in Data Engineers
А если добавить что в hdfs для экономии места есть и их внутренний raid5 то все ещё веселее
источник

T

Tatiana in Data Engineers
Alex
А это никто не предскажет :) никто не гарантирует что они даже на одной машинке окажутся, не говоря об одном диске
Но это плохо тогда. Если нет никаких политик. Тогда можно рассчитывать только на скорость в условных 100 м/с на каждой датаноде
источник

A

Alex in Data Engineers
Почему?
источник

A

Alex in Data Engineers
Вы теоретизируете, а люди в проде гоняют и проблем не видят :)
источник

A

Alex in Data Engineers
Запущены обычно не 1 и не 2 таски на кластере, причём совершенно разных задач, так что все диски обычно более менее равномерно загружены
источник

T

Tatiana in Data Engineers
Alex
Почему?
Трудно тогда оценить время , например той же группировки набора данных в N гигабайт
источник

A

Alex in Data Engineers
Простой пример:
Кластер на 100 машин (в каждой по 100 ядер)

Запущенно 600 приложений

В каждом приложении воркеров достаточно, так что вы выедаете почти все ядра

Будете вы в этом случае думать чтобы блоки отдельного файла точно не оказались на одном диске?
источник

E

Evgenij in Data Engineers
В hdfs есть балансировка данных по надах
источник