Size: a a a

2020 September 22

A

Alex in Data Engineers
тут уж как повезет =)

это как рассказы про масштабируемый объектный сторейдж и дешёвую сеть
а потом придумывание select api так как гонять все данные по сети всё-таки дорого и фильтровать лучше на месте 😉
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
тут уж как повезет =)

это как рассказы про масштабируемый объектный сторейдж и дешёвую сеть
а потом придумывание select api так как гонять все данные по сети всё-таки дорого и фильтровать лучше на месте 😉
зато HDFS много девяток durability сразу дает, я забыл)
источник

A

Alex in Data Engineers
ага, как и s3 c eventual consistency 😉
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
ага, как и s3 c eventual consistency 😉
durability и consistency это разные вещи
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и select api нужен как доп мера, несколько контор которые копировали данные локально перестали это делать, все заработали и всем счастье
источник

AZ

Anton Zadorozhniy in Data Engineers
как short circuit read в HDFS :)
источник

A

Alex in Data Engineers
нет, это к вопросу что многие объектные в обмен на масштабирование требует что-то взамен
локалити, консистентность

с дюрабилити и hdfs сложный вопрос
потерь данных именно по причине хдфс у меня не было
но регулярно видел тикеты которые могут покараптить имейдж, поэтому хз
источник

A

Alex in Data Engineers
Anton Zadorozhniy
как short circuit read в HDFS :)
а что с ним не так?

вроде как работает, пару раз правда переделывали подходы
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
нет, это к вопросу что многие объектные в обмен на масштабирование требует что-то взамен
локалити, консистентность

с дюрабилити и hdfs сложный вопрос
потерь данных именно по причине хдфс у меня не было
но регулярно видел тикеты которые могут покараптить имейдж, поэтому хз
EC в S3 на аналитике не приводит к потере данных, это скорее неудобство при работе (которые все уже полечили давно), а вот когда ваш кластер HDFS встает колом от nonresponsive namenode, или вы теряете весь ЦОД - вот где ваш durability надо считать..
источник

AZ

Anton Zadorozhniy in Data Engineers
кто делал HDFS multi-site replication тот в цирке не смеется
источник

A

Alex in Data Engineers
с этим согласен
крос сайт в хдфс это боль
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
а что с ним не так?

вроде как работает, пару раз правда переделывали подходы
все с ним так, такой же хак как и select api, основная проблема - очень не грейсфул деградация, спросите у любого пользователя HBase)
источник

A

Alex in Data Engineers
про хак согласен, в ту же угоду локалити и уменьшения копирования

hbase если регион без локалити то да, latency растет значительно на запросах
с другой стороны вариантов в своих датацентрах то не сильно и много

не говорите про aerospike, у них all flash решение не настолько давно появилось, иначе если индекс не в памяти, то грусть печаль
источник

N

Nikolay in Data Engineers
Durability всегда относилось к транзакциям. Сейчас как то иначе его понимать стали ?
источник

A

Alex in Data Engineers
то есть я не говорю что hdfs/yarn панацея
но у него хватает своих ниш, хотя в некоторых нишах появляются более простые решения

вернее простые для пользователей
для девопс шило меняется на мыло
заменяем хадуп на поддержку кубика, которые тоже не сахар
источник

A

Alex in Data Engineers
Nikolay
Durability всегда относилось к транзакциям. Сейчас как то иначе его понимать стали ?
в данном контексте про сохранность данных
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
про хак согласен, в ту же угоду локалити и уменьшения копирования

hbase если регион без локалити то да, latency растет значительно на запросах
с другой стороны вариантов в своих датацентрах то не сильно и много

не говорите про aerospike, у них all flash решение не настолько давно появилось, иначе если индекс не в памяти, то грусть печаль
запросто, вешаете hbase на одну infiniband сетку с isilon - и все работает (не так шикарно как у идеально локального hbase, но в среднем неплохо и деградация не ужасная)
источник

AZ

Anton Zadorozhniy in Data Engineers
просто распределенный сторадж это очень трудно, и если есть сервис вроде S3 или GCS (который EC только по грантам) то довольно странно его не использовать, если только вы не обречены на свою железную инфру
источник

A

Alex in Data Engineers
если вы клауде то да
у меня опыт почти всегда касается своей железной инфры

хадупа в клауде и не видел …. 😉
и согласен что деплоить большие его кластера в клауде это немного глупо
источник

A

Alex in Data Engineers
зачем заниматься поддержкой если можно использовать готовое
источник