Телеграмм чат группы hadoopusers страница 2626

Например, есть таблица с информацией о покупателе, там есть поля по типу город проживания и пол. Они являются справочниками. В таблице покупателя сделаны ФК на эти справочники. В рамках data vault мы бьём это всё на 3 хаба (покупатель, города, пол). А таблиц линков мы создаём 2 или 1?

Линки делаете между каждым хабом (если есть FK связь между ними). Дальше уже начинается вопрос с оптимизацией: если пол - это вовсе не справочник (т.е. его нет как отдельной бизнес сущности), то зачем хаб для него - можно и в сателлит положить.

источник

13:55пожаловаться #3

Anton Zadorozhniy in Data Engineers

Aleksey

this

источник

13:57пожаловаться #4

Artem Abikh in Data Engineers

кто нибудь поднимал спринг бут с таким стартером camel-debezium-postgres-starter? не приходит хедер before в кеммел. сорри если не по теме

источник

14:03пожаловаться #5

Mikhail Butalin in Data Engineers

Повелитель Бури

Товарищи! Хадуп в докере норм поднимать или это не бест практис?

Докер мозга? Сам хадуп работает на cgroups, а вы его еще внутрь cgroups положите. Как нормально?

источник

14:24пожаловаться #6

Grigory Pomadchin in Data Engineers

Повелитель Бури

Товарищи! Хадуп в докере норм поднимать или это не бест практис?

норм работает (что здесь хадуп только?)

источник

15:09пожаловаться #7

ЕГ

Евгений Глотов... in Data Engineers

Grigory Pomadchin

норм работает (что здесь хадуп только?)

Главное не делать два контейнера с датанодами на одну и ту же корзину с HDD😆

источник

15:17пожаловаться #8

ЕГ

Евгений Глотов... in Data Engineers

А то будет write only memory)

источник

15:17пожаловаться #9

Grigory Pomadchin in Data Engineers

Евгений Глотов

Главное не делать два контейнера с датанодами на одну и ту же корзину с HDD😆

)) по сети ещё что бы не было оверхеда надо

источник

15:17пожаловаться #10

Gev in Data Engineers

Привет всем
Есть один не очень однозначный вопрос
Я подумываю использовать kafka для обмена данными между пользовательским интерфейсом и spark
Задача стоит организовать взаимодействие пользователя с данными на hdfs с использованием собственного UI и тут возник вопрос - место того чтобы городить огород с какими то распараллелинными rest звпросами к spark гонять по kafka запросы в один топик и получать ответ в другой.

источник

17:01пожаловаться #11

El-Yaz in Data Engineers

а вопрос-то где?)

источник

17:19пожаловаться #12

Gev in Data Engineers

Вопрос - не оттаргает ли такое решение? Нет ли каких то явных проблем?

источник

17:27пожаловаться #13

Gev in Data Engineers

Я почему то не могу найти примеров такой итеграции.

источник

17:30пожаловаться #14

АР

Андрей Романов... in Data Engineers

похоже на spark streaming

источник

17:38пожаловаться #15

АР

Андрей Романов... in Data Engineers

ну, его запросы к кафке

источник

17:38пожаловаться #16

АР

Андрей Романов... in Data Engineers

но им не пользовался

источник

17:38пожаловаться #17

Gev in Data Engineers

Мне просто интересно, есть ли в принципе у кого опыт выдачи данных в кастомный интерфейс с испольщованием spark. И с использованием какого транспорта. Мне кажется что kafka тут вроде не плохо ложится. но боюсь что у меня ограниченные знания и я не вижу каких то очевидных проблем

источник

17:44пожаловаться #18

Stanislav in Data Engineers

Gev

Вопрос - не оттаргает ли такое решение? Нет ли каких то явных проблем?

отторгает где-то на уровне пользовательского интерфейса для спарка

источник

17:51пожаловаться #19

Stanislav in Data Engineers

ну и ui опыт у пользователя будет классным со временем доставки кафки и чтения кафки из спарка

источник

17:51пожаловаться #20