kudu штука быстрая, но геморойная. там постоянно что-то происходит, постоянно что то жрет cpu, разваливаются отваливаются таблеты. в impala транзакций нет, она или поверх куду или поверх файликов parquet/text работает звучит, что задачка ближе к монге или касандре
ну слово "тупо" тут довольно обидно, там есть несколько механизмов репликации, но в общем цель их всех - сделать так чтобы изменения из мастера оказались на репликах
Я очень хорошо понимаю, что такое реплицировать/переносить рел. данные, у которых есть даже рекурсивные зависимости по констрейнтам)) Так что я не в обидном смысле это употребил :)
Я очень хорошо понимаю, что такое реплицировать/переносить рел. данные, у которых есть даже рекурсивные зависимости по констрейнтам)) Так что я не в обидном смысле это употребил :)
Скорее, под словом "тупо" я подумал просто о накатке write ahead логов... Там это тоже есть наверное? Плюс и какая-то логическая репликация, если нужно?
kudu штука быстрая, но геморойная. там постоянно что-то происходит, постоянно что то жрет cpu, разваливаются отваливаются таблеты. в impala транзакций нет, она или поверх куду или поверх файликов parquet/text работает звучит, что задачка ближе к монге или касандре
Спасибо за первый отзыв о куду!) Немного остудили пыл) Сырой пока, что ли?
Скорее, под словом "тупо" я подумал просто о накатке write ahead логов... Там это тоже есть наверное? Плюс и какая-то логическая репликация, если нужно?
Спасибо за первый отзыв о куду!) Немного остудили пыл) Сырой пока, что ли?
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это. пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это. пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
матерь божья, а как же его тогда например в касперском используют
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это. пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
Бэкап... Ну, есть реплики хотя бы... А вот если там отваливаются/теряются данные, да, тогда это пока не про нас)
Коллеги... ну а как насчет молотка?)) Никак в клаудере не замутить нормально oltp+архив? Ну ок. Можно в клаудере тогда держать только архив, а oltp выбрать другую БД? У меня сейчас нормально работает выкачка через streamsets из оракла в клаудеровский паркет в архив, мне в общем нравится... на небольших объемах ) Но объемы растут. В клаудере как... не хватает мощности, взял и добавил хост... звучит заманчиво )
Хотя, сорян, конечно, у нас пока такая постановка задачи... Трачу тут ваше время, а не могу толком сказать даже, насколько большой там будет поток данных, какие выборки... Возможно, и правда, надо замутить постгрес на трех серверах с репликой и успокоиться на этом, а дальше уже смотреть по росту объемов и запросов.
Ну... есть ведь еще и порог входа. Т.е. если владеешь каким-то инструментов, а о другом и не слышал, то может и задачу чуть к инструменту подкрутить, чтобы не учить заново...
Ну... есть ведь еще и порог входа. Т.е. если владеешь каким-то инструментов, а о другом и не слышал, то может и задачу чуть к инструменту подкрутить, чтобы не учить заново...
ученье — свет. а то гипертрофированный мозг человеку зачем наэволюционировался вообще?