Size: a a a

2020 October 28

АА

Алексей Артамонов... in Data Engineers
Andrey Smirnov
я прислал команды для консоли
куда?)
источник

АА

Алексей Артамонов... in Data Engineers
Andrey Smirnov
hdfs dfsadmin -refreshNodes вроде так
а увидел
источник
2020 October 29

SS

Sergey Sheremeta in Data Engineers
Andrey Smirnov
просто интересуюсь (не приходилось делать реликацию hbase кластеров), а чем стандартная репликация не подходит?
а нам нужна репликация из OLTP (HBase) в DWH/DataLake - что только уже не пробовали ((
рады любым советам
источник

SS

Sergey Sheremeta in Data Engineers
я уже начинаю подозревать, что решение с перенаправлением штатного потока репликации  HBase в Кафку и последующее применение этих мутаций HBase в Hudi через сырющщщий partial columns update - единственно возможное!
(это я уныло набросил если что)
источник

SS

Sergey Shushkov in Data Engineers
Больше звучит как downstream чем репликация
источник

S

Stanislav in Data Engineers
Sergey Sheremeta
а нам нужна репликация из OLTP (HBase) в DWH/DataLake - что только уже не пробовали ((
рады любым советам
а вам нужен прямо онлайн?
источник

SS

Sergey Sheremeta in Data Engineers
Stanislav
а вам нужен прямо онлайн?
Да можно и с задержкой до часа
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
а нам нужна репликация из OLTP (HBase) в DWH/DataLake - что только уже не пробовали ((
рады любым советам
а просто писать события в кафку из приложения не вариант?
источник

AZ

Anton Zadorozhniy in Data Engineers
просто работа с CDC это компромисс не от хорошей жизни, если у вас есть экспертиза написать приложение поверх hbase, то добавить поток нормальных бизнес-событий оттуда в кафку уж наверняка возможно, и тогда не нужно будет собирать строки, потом интерпретировать бизнес-логику поверх сырых данных...
источник

AZ

Anton Zadorozhniy in Data Engineers
а уж какие возможности это открывает по расширению ваших операционных сервисов
источник

AZ

Anton Zadorozhniy in Data Engineers
если невозможно - складывайте в объектный стор и напишите честный snapshot builder как у всех остальных CDC
источник

SS

Sergey Sheremeta in Data Engineers
Anton Zadorozhniy
если невозможно - складывайте в объектный стор и напишите честный snapshot builder как у всех остальных CDC
я не очень умный... раскройте, пожалуйста, суть "честного snapshot builder"?
источник

AZ

Anton Zadorozhniy in Data Engineers
Sergey Sheremeta
я не очень умный... раскройте, пожалуйста, суть "честного snapshot builder"?
вы складываете изменения к таблице в датасет, пишете джоб который принимает предыдущий снапшот таблицы на вход и применяет изменения к этому снапшоту и пишете новый
источник

АА

Алексей Артамонов... in Data Engineers
@dartov вот такая сейчас ошибка, в core-site.xml я добавил следующие:
<property>
 <name>hadoop.proxyuser.jupyterhub.hosts</name>
 <value>*</value>
</property>
<property>
 <name>hadoop.proxyuser.jupyterhub.groups</name>
 <value>*</value>
</property>


и сделал hdfs dfsadmin -refreshNodes
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей Артамонов
@dartov вот такая сейчас ошибка, в core-site.xml я добавил следующие:
<property>
 <name>hadoop.proxyuser.jupyterhub.hosts</name>
 <value>*</value>
</property>
<property>
 <name>hadoop.proxyuser.jupyterhub.groups</name>
 <value>*</value>
</property>


и сделал hdfs dfsadmin -refreshNodes
надо делать refreshNamenodes, и вообще вроде был скрипт sbin/refresh-namenodes.sh где-то в ванильке
источник

АА

Алексей Артамонов... in Data Engineers
я правильно понимаю он не подхватывает конфиг
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и проверьте что изменения в core-site разъехались по всем нодам
источник

АА

Алексей Артамонов... in Data Engineers
а вот идиотский вопрос, как глянуть на каком порту работает хадуп netstat не предлогать
источник

AZ

Anton Zadorozhniy in Data Engineers
хадуп работает на куче портов
источник

AZ

Anton Zadorozhniy in Data Engineers
какой сервис?
источник