Size: a a a

2020 August 20

T

T in Data Engineers
зачем вам бигдата тулзы для этого?
источник

A

Alex in Data Engineers
Куду хз, как-то тут уже обсуждалось что непонятно что с проектом

В hbase блобы конечно можно, но зачем doc/xls туда пихать я не знаю, я бы только мета инфу где на s3 каком лежит

Несколько гигов в день, это вы на 1 тб памяти год можете прожить просто в память складывая
источник

АК

Анатолий Клюса... in Data Engineers
Alex
Куду хз, как-то тут уже обсуждалось что непонятно что с проектом

В hbase блобы конечно можно, но зачем doc/xls туда пихать я не знаю, я бы только мета инфу где на s3 каком лежит

Несколько гигов в день, это вы на 1 тб памяти год можете прожить просто в память складывая
Там есть отчеты до документам за день, которые должны выполняться за секунды)
Ну и опять же, на вырост.
И high availability, т.е. масштабируемость.
источник

A

Alex in Data Engineers
Любой nosql это сразу мы ищем что за запросы будут, после этого сидим и думаем с раскладной данных
источник

A

Alex in Data Engineers
Иначе быстро не будет
источник

A

Alex in Data Engineers
HA и масштабируемость ортогональны, это не синонимы
источник

АК

Анатолий Клюса... in Data Engineers
Alex
HA и масштабируемость ортогональны, это не синонимы
Э... сорри, я имел в виду отказоустойчивость...)
источник

АК

Анатолий Клюса... in Data Engineers
Масштабируемость точно нужна)
источник

P

PallivalloO in Data Engineers
В сторону impala смотрели ?
источник

A

Alex in Data Engineers
У импалы обновлений нету
источник

АК

Анатолий Клюса... in Data Engineers
Грубо говоря, хотелось бы oltp + архив на масштабируемых opensource компонентах )
источник

AE

Alexey Evdokimov in Data Engineers
oltp по чему именно?
источник

AE

Alexey Evdokimov in Data Engineers
вы контент документов планируете как-то процессить или что?
источник

АК

Анатолий Клюса... in Data Engineers
PallivalloO
В сторону impala смотрели ?
У импалы oltp вроде как-то... Когда я это пробовал, у меня получалось много мелких файлов, это таким образом у нее транзакционность реализована?
источник

AS

Andrey Smirnov in Data Engineers
Анатолий Клюса
Нужна хорошая масштабируемость.
Или постгрес/гринплюм?..
почему бы и нет, есть еще Vitess
источник

A

Alex in Data Engineers
Ну на ваших объёмах я бы стартанул с обычной реляционки и потом когда данных будет реально много и видел как оно используется, то думал куда дальше, пока пару гб в день это не то из-за чего стоит городить велосипеды
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
oltp по чему именно?
Запись/корректировка документов, пока они не в архиве.
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
вы контент документов планируете как-то процессить или что?
В общем, да, что-то дописывать внутрь...
источник

AE

Alexey Evdokimov in Data Engineers
не, ну по классике для метаданных можно юзать любую хорошо вам знакомую реляционку, а для контента подыскать блочный сторидж с произвольным доступом
источник

AE

Alexey Evdokimov in Data Engineers
у вас небольшой объём, тут сильно заморачиваться не надо
источник