Size: a a a

2020 August 08

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
В мск?
ага. самый первый.
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
ага. самый первый.
Значит на одном митапе были :)
источник

MB

Mikhail Butalin in Data Engineers
Вопрос про диски на 14+ТБ.
Мне тут шепчут что у клодеры с ними замарока какая-то и что надо их разбивать на раразделы..

Кто-нибудь вкурсе про эту тему?
источник

A

Alex in Data Engineers
а можно узнать что за замароки шепчут?
источник

MB

Mikhail Butalin in Data Engineers
что нельзя целиком большой диск для датаноды использовать
источник

MB

Mikhail Butalin in Data Engineers
есть ограничения
источник

MB

Mikhail Butalin in Data Engineers
но чёт пока ничего внятного не нашёл
источник

MB

Mikhail Butalin in Data Engineers
у меня cloudera 5.15 на Oracle BDA
источник

А

Алексей in Data Engineers
вероятно скорость ввода/вывода будет низкая, если 1 большой диск на 1 ноде, вместо N небольших дисков и нод
источник

MB

Mikhail Butalin in Data Engineers
и на новых нодах X8 диски 14ТБ побиты на два раздела 10 и 4
источник

A

Alex in Data Engineers
но разделами это не решится
источник

MB

Mikhail Butalin in Data Engineers
именно
источник

MB

Mikhail Butalin in Data Engineers
вот я и подвис...
источник

MB

Mikhail Butalin in Data Engineers
я так понял у оракла на одну железку максимум 12 дисков. и больше ни-ни
источник

A

Alex in Data Engineers
основная проблема что встречалась это когда все блоки в память не влазили (метаданная по ним, датанода в gc уходила, подымалось xmx, но опять же вопросы к большому хипу появлялись)
и когда в сама датанода большая то в один репорт плохо влазило и досили неймноду (поэтому добавили в хадупе отправлять чанками репорт)

но ни одна из этим проблем не разруливается разделами
источник

MB

Mikhail Butalin in Data Engineers
Всю ночь экстендил кластер, новые ноды приехали.. такой дичайший шаманизм...
источник

MB

Mikhail Butalin in Data Engineers
а у нас еще самовыпускные SSL сертификаты - это ппц
источник

MB

Mikhail Butalin in Data Engineers
там всё на костылях Puppet + RUBY
источник

MB

Mikhail Butalin in Data Engineers
пришлось часть косяков правкой шаблонов костылить на лету
источник

A

Alex in Data Engineers
dfs.blockreport.split.threshold

If the number of blocks on the DataNode is below this threshold then it will send block reports for all Storage Directories in a single message. If the number of blocks exceeds this threshold then the DataNode will send block reports for each Storage Directory in separate messages. Set to zero to always split.


возможно переживают что на очень больших дисках даже в один репорт будет залазить с трудом
источник