Size: a a a

2020 January 06

M

Mi in Data Engineers
Anon 43
да еще и нетривиального на 3 этапа
Любой джоин с фильтрацией думаю будет не очень тревиальнвм
источник

M

Mi in Data Engineers
И какая-нибудь агрегация в конце
источник

A

Alex in Data Engineers
Tatiana
А какие бывают варианты.сколько дисков ... 1,2,...24? Это ведь всегда не рейд?
Неймнода и журналноды зачастую рейд на имейдж и wal

Датаноды обычно просто точки монтирования (до 20 встречал)

Можно и рейд 0 или желательно ссд для фолдеров куда yarn временные файлы пишет
источник

A

Alex in Data Engineers
Варианты разные бывают, все зависит от бюджета и задачи
источник

A

Alex in Data Engineers
Бывают и в hdfs пихают ssd для tier разных, та же hbase умеет запрашивать нужный tier для wal
источник

A

Alex in Data Engineers
Данные на hdd, wal на ssd
источник

ʏᴍ

ʏᴜʀɪʏ ᴍᴀʟʏɢɪɴ in Data Engineers
Tatiana
А какие бывают варианты.сколько дисков ... 1,2,...24? Это ведь всегда не рейд?
Рейд только на системном разделе имеет смысл, и то только в том случае если в сервере много дисков, чтобы лишний раз не делать декомиссию. грубо говоря можно выделить два конфига - 1U и 4U
источник

ʏᴍ

ʏᴜʀɪʏ ᴍᴀʟʏɢɪɴ in Data Engineers
Alex
Неймнода и журналноды зачастую рейд на имейдж и wal

Датаноды обычно просто точки монтирования (до 20 встречал)

Можно и рейд 0 или желательно ссд для фолдеров куда yarn временные файлы пишет
у меня есть бигмаки по 36 дисков по 14Tb
источник

С

Сюткин in Data Engineers
ʏᴜʀɪʏ ᴍᴀʟʏɢɪɴ
у меня есть бигмаки по 36 дисков по 14Tb
Мне два бигмака и кока-колу
источник

С

Сюткин in Data Engineers
Прости не удержался
источник

T

Tatiana in Data Engineers
Alex
Неймнода и журналноды зачастую рейд на имейдж и wal

Датаноды обычно просто точки монтирования (до 20 встречал)

Можно и рейд 0 или желательно ссд для фолдеров куда yarn временные файлы пишет
Если скорость чтения с одного диска условные 100-150 мб в секунду , то получается , что датаноды тоже выдают скорость чтения в этом диапазоне ? И например если на датаноде запускается spark executor ,то все таски в нем будут делить эти 100-150 мб/сек между собой ?
источник

A

Alex in Data Engineers
Если у вас один диск то да
источник

A

Alex in Data Engineers
Но там очень много НО :)
источник

A

Alex in Data Engineers
Но таски могут ходить в локальный диск, могут не ходить
источник

A

Alex in Data Engineers
У Датаноды может быть один диск
А для yarn использоваться другой и уже на него будут сбрасывать спарки свои шафл файлы
источник

T

Tatiana in Data Engineers
Alex
Если у вас один диск то да
А если дисков 10, но ведь они без рейда . Значит то же предел.
источник

A

Alex in Data Engineers
Эм, то есть?
источник

A

Alex in Data Engineers
Каждый по 100
источник

T

Tatiana in Data Engineers
Alex
Каждый по 100
Почему ? Если нет рейд , то он будет читать всегда только с одного .
источник

A

Alex in Data Engineers
Что такое рейд?

Железяка раскидывает блоки по разным дискам

В софтварном ядро раскидывает

Что мешает в датаноде по разным фолдерам раскидывает блоки?
источник