Телеграмм чат группы hadoopusers страница 2786

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1971 membersпожаловаться на группу

2020 September 22

A

Alex in Data Engineers

тут уж как повезет =)

это как рассказы про масштабируемый объектный сторейдж и дешёвую сеть
а потом придумывание select api так как гонять все данные по сети всё-таки дорого и фильтровать лучше на месте 😉

источник

18:38пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

тут уж как повезет =)

это как рассказы про масштабируемый объектный сторейдж и дешёвую сеть
а потом придумывание select api так как гонять все данные по сети всё-таки дорого и фильтровать лучше на месте 😉

зато HDFS много девяток durability сразу дает, я забыл)

источник

18:38пожаловаться #2

A

Alex in Data Engineers

ага, как и s3 c eventual consistency 😉

источник

18:39пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

ага, как и s3 c eventual consistency 😉

durability и consistency это разные вещи

источник

18:39пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

ну и select api нужен как доп мера, несколько контор которые копировали данные локально перестали это делать, все заработали и всем счастье

источник

18:40пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

как short circuit read в HDFS :)

источник

18:41пожаловаться #6

A

Alex in Data Engineers

нет, это к вопросу что многие объектные в обмен на масштабирование требует что-то взамен
локалити, консистентность

с дюрабилити и hdfs сложный вопрос
потерь данных именно по причине хдфс у меня не было
но регулярно видел тикеты которые могут покараптить имейдж, поэтому хз

источник

18:41пожаловаться #7

A

Alex in Data Engineers

Anton Zadorozhniy

как short circuit read в HDFS :)

а что с ним не так?

вроде как работает, пару раз правда переделывали подходы

источник

18:41пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

нет, это к вопросу что многие объектные в обмен на масштабирование требует что-то взамен
локалити, консистентность

с дюрабилити и hdfs сложный вопрос
потерь данных именно по причине хдфс у меня не было
но регулярно видел тикеты которые могут покараптить имейдж, поэтому хз

EC в S3 на аналитике не приводит к потере данных, это скорее неудобство при работе (которые все уже полечили давно), а вот когда ваш кластер HDFS встает колом от nonresponsive namenode, или вы теряете весь ЦОД - вот где ваш durability надо считать..

источник

18:46пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

кто делал HDFS multi-site replication тот в цирке не смеется

источник

18:46пожаловаться #10

A

Alex in Data Engineers

с этим согласен
крос сайт в хдфс это боль

источник

18:47пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

а что с ним не так?

вроде как работает, пару раз правда переделывали подходы

все с ним так, такой же хак как и select api, основная проблема - очень не грейсфул деградация, спросите у любого пользователя HBase)

источник

18:47пожаловаться #12

A

Alex in Data Engineers

про хак согласен, в ту же угоду локалити и уменьшения копирования

hbase если регион без локалити то да, latency растет значительно на запросах
с другой стороны вариантов в своих датацентрах то не сильно и много

не говорите про aerospike, у них all flash решение не настолько давно появилось, иначе если индекс не в памяти, то грусть печаль

источник

18:50пожаловаться #13

N

Nikolay in Data Engineers

Durability всегда относилось к транзакциям. Сейчас как то иначе его понимать стали ?

источник

18:51пожаловаться #14

A

Alex in Data Engineers

то есть я не говорю что hdfs/yarn панацея
но у него хватает своих ниш, хотя в некоторых нишах появляются более простые решения

вернее простые для пользователей
для девопс шило меняется на мыло
заменяем хадуп на поддержку кубика, которые тоже не сахар

источник

18:52пожаловаться #15

A

Alex in Data Engineers

Nikolay

Durability всегда относилось к транзакциям. Сейчас как то иначе его понимать стали ?

в данном контексте про сохранность данных

источник

18:52пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

про хак согласен, в ту же угоду локалити и уменьшения копирования

hbase если регион без локалити то да, latency растет значительно на запросах
с другой стороны вариантов в своих датацентрах то не сильно и много

не говорите про aerospike, у них all flash решение не настолько давно появилось, иначе если индекс не в памяти, то грусть печаль

запросто, вешаете hbase на одну infiniband сетку с isilon - и все работает (не так шикарно как у идеально локального hbase, но в среднем неплохо и деградация не ужасная)

источник

18:53пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

просто распределенный сторадж это очень трудно, и если есть сервис вроде S3 или GCS (который EC только по грантам) то довольно странно его не использовать, если только вы не обречены на свою железную инфру

источник

18:55пожаловаться #18

A

Alex in Data Engineers

если вы клауде то да
у меня опыт почти всегда касается своей железной инфры

хадупа в клауде и не видел …. 😉
и согласен что деплоить большие его кластера в клауде это немного глупо

источник

18:58пожаловаться #19

A

Alex in Data Engineers

зачем заниматься поддержкой если можно использовать готовое

источник

18:58пожаловаться #20