Телеграмм чат группы hadoopusers страница 2652

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1916 membersпожаловаться на группу

2020 August 20

D

Dmitry in Data Engineers

kudu штука быстрая, но геморойная. там постоянно что-то происходит, постоянно что то жрет cpu, разваливаются отваливаются таблеты.
в impala транзакций нет, она или поверх куду или поверх файликов parquet/text работает
звучит, что задачка ближе к монге или касандре

источник

16:52пожаловаться #1

АК

Анатолий Клюса... in Data Engineers

Anton Zadorozhniy

ну слово "тупо" тут довольно обидно, там есть несколько механизмов репликации, но в общем цель их всех - сделать так чтобы изменения из мастера оказались на репликах

Я очень хорошо понимаю, что такое реплицировать/переносить рел. данные, у которых есть даже рекурсивные зависимости по констрейнтам)) Так что я не в обидном смысле это употребил :)

источник

16:56пожаловаться #2

АК

Анатолий Клюса... in Data Engineers

Anton Zadorozhniy

если у вас хоть сколько-нибудь серьезный продакшен то как минимум одна реплика вам точно нужна

Да, конечно, поэтому и расположить надо хотя бы на нексольких серверах для отказоустойчивости.

источник

16:57пожаловаться #3

АК

Анатолий Клюса... in Data Engineers

Анатолий Клюса

Я очень хорошо понимаю, что такое реплицировать/переносить рел. данные, у которых есть даже рекурсивные зависимости по констрейнтам)) Так что я не в обидном смысле это употребил :)

Скорее, под словом "тупо" я подумал просто о накатке write ahead логов... Там это тоже есть наверное? Плюс и какая-то логическая репликация, если нужно?

источник

17:03пожаловаться #4

АК

Анатолий Клюса... in Data Engineers

kudu штука быстрая, но геморойная. там постоянно что-то происходит, постоянно что то жрет cpu, разваливаются отваливаются таблеты.
в impala транзакций нет, она или поверх куду или поверх файликов parquet/text работает
звучит, что задачка ближе к монге или касандре

Спасибо за первый отзыв о куду!)
Немного остудили пыл)
Сырой пока, что ли?

источник

17:04пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Анатолий Клюса

Скорее, под словом "тупо" я подумал просто о накатке write ahead логов... Там это тоже есть наверное? Плюс и какая-то логическая репликация, если нужно?

да, там есть разные варианты

источник

17:09пожаловаться #6

D

Dmitry in Data Engineers

Анатолий Клюса

Спасибо за первый отзыв о куду!)
Немного остудили пыл)
Сырой пока, что ли?

да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует

источник

17:10пожаловаться #7

AS

Andrey Smirnov in Data Engineers

да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует

матерь божья, а как же его тогда например в касперском используют

источник

17:11пожаловаться #8

АК

Анатолий Клюса... in Data Engineers

да, там еще явно много чего по оптимизации надо делать. там колончатый формат, с упаковкой, поток модифицирующих "транзакций" похоже требует постоянного переупаковки и записи партиции. плюс комуникация со своими репликами. много cpu жрет все это.
пока там даже бэкапа толком нет, год назад вместо бэкапа выкатили spark скриптик, который просто в csv копирует

Бэкап... Ну, есть реплики хотя бы...
А вот если там отваливаются/теряются данные, да, тогда это пока не про нас)

источник

17:12пожаловаться #9

АК

Анатолий Клюса... in Data Engineers

Коллеги... ну а как насчет молотка?))
Никак в клаудере не замутить нормально oltp+архив?
Ну ок. Можно в клаудере тогда держать только архив, а oltp выбрать другую БД?
У меня сейчас нормально работает выкачка через streamsets из оракла в клаудеровский паркет в архив, мне в общем нравится... на небольших объемах ) Но объемы растут.
В клаудере как... не хватает мощности, взял и добавил хост... звучит заманчиво )

источник

17:17пожаловаться #10

АК

Анатолий Клюса... in Data Engineers

Хотя, сорян, конечно, у нас пока такая постановка задачи... Трачу тут ваше время, а не могу толком сказать даже, насколько большой там будет поток данных, какие выборки...
Возможно, и правда, надо замутить постгрес на трех серверах с репликой и успокоиться на этом, а дальше уже смотреть по росту объемов и запросов.

источник

17:19пожаловаться #11

AE

Alexey Evdokimov in Data Engineers

инструмент таки должен подходить к задаче

источник

17:19пожаловаться #12

AE

Alexey Evdokimov in Data Engineers

если есть молоток, забивать им шурупы можно, но ведёт к плохому качеству

источник

17:20пожаловаться #13

АК

Анатолий Клюса... in Data Engineers

Alexey Evdokimov

инструмент таки должен подходить к задаче

Ну... есть ведь еще и порог входа. Т.е. если владеешь каким-то инструментов, а о другом и не слышал, то может и задачу чуть к инструменту подкрутить, чтобы не учить заново...

источник

17:21пожаловаться #14

D

Dmitry in Data Engineers

impala + parquet + нормально партиционировать -> пока все в память будет влазить будет отлично работать. это даст время сформулировать задачу

источник

17:21пожаловаться #15

D

Dmitry in Data Engineers

опять же, если импалу не заставлять джоинить гигабайты

источник

17:22пожаловаться #16

AE

Alexey Evdokimov in Data Engineers

Анатолий Клюса

Ну... есть ведь еще и порог входа. Т.е. если владеешь каким-то инструментов, а о другом и не слышал, то может и задачу чуть к инструменту подкрутить, чтобы не учить заново...

ученье — свет. а то гипертрофированный мозг человеку зачем наэволюционировался вообще?

источник

17:23пожаловаться #17

N

Nikolay in Data Engineers

Нету там oltp нормального. После oracle вам все будет плохо

источник

17:24пожаловаться #18

A

Alex in Data Engineers

Alexey Evdokimov

если есть молоток, забивать им шурупы можно, но ведёт к плохому качеству

Шуруп забитый молотком, лучше гвоздя закрученного отвёрткой

источник

17:24пожаловаться #19

АК

Анатолий Клюса... in Data Engineers

Alexey Evdokimov

ученье — свет. а то гипертрофированный мозг человеку зачем наэволюционировался вообще?

Тут я только за конечно.

источник

17:25пожаловаться #20