Size: a a a

2020 August 20

D

Dmitry in Data Engineers
kudu штука быстрая, но геморойная. там постоянно что-то происходит, постоянно что то жрет cpu, разваливаются отваливаются таблеты.
в impala транзакций нет, она или поверх куду или поверх файликов parquet/text работает
звучит, что задачка ближе к монге или касандре
источник

АК

Анатолий Клюса... in Data Engineers
Anton Zadorozhniy
ну слово "тупо" тут довольно обидно, там есть несколько механизмов репликации, но в общем цель их всех - сделать так чтобы изменения из мастера оказались на репликах
Я очень хорошо понимаю, что такое реплицировать/переносить рел. данные, у которых есть даже рекурсивные зависимости по констрейнтам)) Так что я не в обидном смысле это употребил :)
источник

АК

Анатолий Клюса... in Data Engineers
Anton Zadorozhniy
если у вас хоть сколько-нибудь серьезный продакшен то как минимум одна реплика вам точно нужна
Да, конечно, поэтому и расположить надо хотя бы на нексольких серверах для отказоустойчивости.
источник

АК

Анатолий Клюса... in Data Engineers
Анатолий Клюса
Я очень хорошо понимаю, что такое реплицировать/переносить рел. данные, у которых есть даже рекурсивные зависимости по констрейнтам)) Так что я не в обидном смысле это употребил :)
Скорее, под словом "тупо" я подумал просто о накатке write ahead логов... Там это тоже есть наверное? Плюс и какая-то логическая репликация, если нужно?
источник

АК

Анатолий Клюса... in Data Engineers
Dmitry
kudu штука быстрая, но геморойная. там постоянно что-то происходит, постоянно что то жрет cpu, разваливаются отваливаются таблеты.
в impala транзакций нет, она или поверх куду или поверх файликов parquet/text работает
звучит, что задачка ближе к монге или касандре
Спасибо за первый отзыв о куду!)
Немного остудили пыл)
Сырой пока, что ли?
источник

AZ

Anton Zadorozhniy in Data Engineers
Анатолий Клюса
Скорее, под словом "тупо" я подумал просто о накатке write ahead логов... Там это тоже есть наверное? Плюс и какая-то логическая репликация, если нужно?
да, там есть разные варианты
источник

D

Dmitry in Data Engineers
Анатолий Клюса
Спасибо за первый отзыв о куду!)
Немного остудили пыл)
Сырой пока, что ли?
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
источник

AS

Andrey Smirnov in Data Engineers
Dmitry
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
матерь божья, а как же его тогда например в касперском используют
источник

АК

Анатолий Клюса... in Data Engineers
Dmitry
да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует
Бэкап... Ну, есть реплики хотя бы...
А вот если там отваливаются/теряются данные, да, тогда это пока не про нас)
источник

АК

Анатолий Клюса... in Data Engineers
Коллеги... ну а как насчет молотка?))
Никак в клаудере не замутить нормально oltp+архив?
Ну ок. Можно в клаудере тогда держать только архив, а oltp выбрать другую БД?
У меня сейчас нормально работает выкачка через streamsets из оракла в клаудеровский паркет в архив, мне в общем нравится... на небольших объемах ) Но объемы растут.
В клаудере как... не хватает мощности, взял и    добавил хост... звучит заманчиво )
источник

АК

Анатолий Клюса... in Data Engineers
Хотя, сорян, конечно, у нас пока такая постановка задачи... Трачу тут ваше время, а не могу толком сказать даже, насколько большой там будет поток данных, какие выборки...
Возможно, и правда, надо замутить постгрес на трех серверах с репликой и успокоиться на этом, а дальше уже смотреть по росту объемов и запросов.
источник

AE

Alexey Evdokimov in Data Engineers
инструмент таки должен подходить к задаче
источник

AE

Alexey Evdokimov in Data Engineers
если есть молоток, забивать им шурупы можно, но ведёт к плохому качеству
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
инструмент таки должен подходить к задаче
Ну... есть ведь еще и порог входа. Т.е. если владеешь каким-то инструментов, а о другом и не слышал, то может и задачу чуть к инструменту подкрутить, чтобы не учить заново...
источник

D

Dmitry in Data Engineers
impala + parquet + нормально партиционировать -> пока все в память будет влазить будет отлично работать. это даст время сформулировать задачу
источник

D

Dmitry in Data Engineers
опять же, если импалу не заставлять джоинить гигабайты
источник

AE

Alexey Evdokimov in Data Engineers
Анатолий Клюса
Ну... есть ведь еще и порог входа. Т.е. если владеешь каким-то инструментов, а о другом и не слышал, то может и задачу чуть к инструменту подкрутить, чтобы не учить заново...
ученье — свет. а то гипертрофированный мозг человеку зачем наэволюционировался вообще?
источник

N

Nikolay in Data Engineers
Нету там oltp нормального. После oracle вам все будет плохо
источник

A

Alex in Data Engineers
Alexey Evdokimov
если есть молоток, забивать им шурупы можно, но ведёт к плохому качеству
Шуруп забитый молотком, лучше гвоздя закрученного отвёрткой
источник

АК

Анатолий Клюса... in Data Engineers
Alexey Evdokimov
ученье — свет. а то гипертрофированный мозг человеку зачем наэволюционировался вообще?
Тут я только за конечно.
источник