Size: a a a

2020 August 20

АК

Анатолий Клюса... in Data Engineers
Alex
Ну на ваших объёмах я бы стартанул с обычной реляционки и потом когда данных будет реально много и видел как оно используется, то думал куда дальше, пока пару гб в день это не то из-за чего стоит городить велосипеды
Смотря еще какое железо наверное.
Я знаю БД оракла (11g) 24*7 с размером около 7 теров, так там тяжеловато уже оно все ворочается.
Там тоже около 2-5 гигов в день.
Зависти, конечно, от спроектированной схемы и все такое... )
источник

AE

Alexey Evdokimov in Data Engineers
контент в виде блоба хранить не самое лучшее решение, лучше его складывать в ФС на какой-нить быстрой СХД
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
у вас небольшой объём, тут сильно заморачиваться не надо
Если постгрес нормально масштабируется/размазывается по серверам (у нас такое условие), то можно и его попробовать. Я просто не в курсе, как у него с этим. Говорят, не очень...
источник

AE

Alexey Evdokimov in Data Engineers
и семантику блокировки так реализовать проще
источник

AE

Alexey Evdokimov in Data Engineers
Анатолий Клюса
Если постгрес нормально масштабируется/размазывается по серверам (у нас такое условие), то можно и его попробовать. Я просто не в курсе, как у него с этим. Говорят, не очень...
БД вам нужна только для индекса и метаданных. тут любая подойдёт. хоть пг, хоть даже мускул
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
не, ну по классике для метаданных можно юзать любую хорошо вам знакомую реляционку, а для контента подыскать блочный сторидж с произвольным доступом
Объектный наверное все таки
источник

AE

Alexey Evdokimov in Data Engineers
как показывает практика, у 99% файлов в таких сторах схема метаданных всё-таки ближе к фиксированной, и объектный стор для неё не нужен
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
БД вам нужна только для индекса и метаданных. тут любая подойдёт. хоть пг, хоть даже мускул
Э... блобы/xml хранить в виде файлов в ФС, а метаданные в рел. БД?
Мы это обсуждали, но там... как минимум неконсистентность и как-то это все... мне не очень нравится, если честно :)
Я понимаю, можно просто создать каталог blob и писать туда файлы с именем ID... Можно разбить по партициям/каталогам...
Чет я ФС как-то в этом не сильно доверяю)
источник

AZ

Anton Zadorozhniy in Data Engineers
блочные стораджи прям сильно сложнее и дороже
источник

АК

Анатолий Клюса... in Data Engineers
Anton Zadorozhniy
блочные стораджи прям сильно сложнее и дороже
Это про складывать в ФС на быстрый СХД?
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
контент в виде блоба хранить не самое лучшее решение, лучше его складывать в ФС на какой-нить быстрой СХД
ФС на какой-нить быстрой СХД
Быстрой СХД скорее всего не будет)
Будут медленные хосты, потихоньку можно будет докупать еще наверное...) Не думаю, что дадут сразу и много )
источник

AZ

Anton Zadorozhniy in Data Engineers
Анатолий Клюса
Это про складывать в ФС на быстрый СХД?
да, вы можете пользоваться ФС как объектным стораджем так и как блочным, но если вам нужно организовать свой сторадж из коммодити, или вы на облаке - организовать объектный намного проще
источник

АК

Анатолий Клюса... in Data Engineers
Объем в два гига я взял, если честно, очень грубо)
Возможно, будет больше, я ж говорю, на вырост.
Не хочется упереться потом в какие-то ограничения, если делать grep-ом в текстовиках )))
В облаке этого дела не будет по условию задачи.
источник

АК

Анатолий Клюса... in Data Engineers
Блин... у меня в руках молот... т.е. клаудера...)))
Нужно забить гво... т.е. сделать oltp+архив... 😊
источник

АК

Анатолий Клюса... in Data Engineers
Но вариантов и правда сразу много посоветовали, спасибо за участие.
Ок... Скажите, а постгрес нормально масштабируется хотя бы на 3 узлах?
Или там уже будут проблемы с синхронизацией/репликацией?
Я понимаю, что можно и самим реплику организовать...)
источник

AZ

Anton Zadorozhniy in Data Engineers
постгрес дает только read replicas, там нет шардинга/партиционирования одной таблицы между узлами
источник

AZ

Anton Zadorozhniy in Data Engineers
есть всякие надстройки, вроде Vitess для MySQL (я знаю Citus для PG), но вы уверены что вам оно нужно? по показаниям вроде нагрузка не такая большая
источник

АК

Анатолий Клюса... in Data Engineers
Anton Zadorozhniy
постгрес дает только read replicas, там нет шардинга/партиционирования одной таблицы между узлами
Хм... А, возможно, нам будет этого и достаточно...
Т.е. записав на один хост, оно просто тупо все дублируется на все остальные?
источник

AZ

Anton Zadorozhniy in Data Engineers
Анатолий Клюса
Хм... А, возможно, нам будет этого и достаточно...
Т.е. записав на один хост, оно просто тупо все дублируется на все остальные?
ну слово "тупо" тут довольно обидно, там есть несколько механизмов репликации, но в общем цель их всех - сделать так чтобы изменения из мастера оказались на репликах
источник

AZ

Anton Zadorozhniy in Data Engineers
если у вас хоть сколько-нибудь серьезный продакшен то как минимум одна реплика вам точно нужна
источник