Size: a a a

2020 November 08

ME

Max Efremov in Data Engineers
Gev
Да пускать пользователя к большим данным - это бяда. По хорошему пользователь должен работать в других изолированных системах с меньшим объёмом и большей доступностью а данные должны приходить в бигдата уже готовыми.
Мы импортируем данные в mysql для веб приложения, агрегируя где много. И юзеры уже свои отчёты на этом строят
источник

Д

Дмитрий in Data Engineers
Gev
Вот кстати еще вопрос. А кто как хранит и менеджит метаданные? Apache atlas, cloudera navigator?
Atlas пробуем
источник

G

Gev in Data Engineers
Дмитрий
Atlas пробуем
Ну и как? Или ещё нет пока ваечатлений?
источник

АА

Алексей Артамонов... in Data Engineers
Алексей Артамонов
У меня просто фейл. И пользователя я добавил в группу jupyterhub, а сам юпитерхаб запускаю от него же
PAM Authentication failed (asatest@::ffff:192.168.1.28): [PAM Error 7] Authentication failure

и все и не коннектится
источник

АЖ

Андрей Жуков... in Data Engineers
Gev
Ну и как? Или ещё нет пока ваечатлений?
если ВСЁ в хадупе, то можно пользоваться

иначе боль и напильник
источник

G

Gev in Data Engineers
Андрей Жуков
если ВСЁ в хадупе, то можно пользоваться

иначе боль и напильник
Postgresql?
источник

АЖ

Андрей Жуков... in Data Engineers
Gev
Postgresql?
он не в хадупе :)
источник

G

Gev in Data Engineers
Ясно
источник

АЖ

Андрей Жуков... in Data Engineers
тут все как в том анекдоте про блох
источник

Д

Дмитрий in Data Engineers
Если натягивать на какие то свои подделки/свои инструменты/legacy то долго и больно.
Если использовать его в новом проекте с hdp 3+ или cdp то взлетит чуть ли не из коробки.
впечатления - удобный и простой инструмент для метаданных в экоситеме Hadoop. Для другого я бы не использовал.
источник

АЖ

Андрей Жуков... in Data Engineers
если бы у рыбы была шерсть (если бы вы скупом все сливали из постгресов в хадуп)
источник

А

Алексей in Data Engineers
заливать через временный слой staging как раз лучший вариант, можно дополнительно делать постобработку типа сбора статистики, включения/отключения индексов
источник

АЖ

Андрей Жуков... in Data Engineers
Алексей
заливать через временный слой staging как раз лучший вариант, можно дополнительно делать постобработку типа сбора статистики, включения/отключения индексов
Надеюсь,  это не про метаданные
источник

G

Gev in Data Engineers
Алексей
заливать через временный слой staging как раз лучший вариант, можно дополнительно делать постобработку типа сбора статистики, включения/отключения индексов
Убедили :)
источник

АЖ

Андрей Жуков... in Data Engineers
источник

G

Gev in Data Engineers
Андрей Жуков
Надеюсь,  это не про метаданные
Не. Это про то, как общаться с простгрей
источник

G

Gev in Data Engineers
Блин. Как бы все метаданные от всего поместить в одно место. И так чтобы аналитики могли смотреть крутить их и сразу брать актуальную версию в схему налету
источник

АЖ

Андрей Жуков... in Data Engineers
Ну уже чего-чего,  а решений по метаданным навалом даже в опенсорсе
источник

АЖ

Андрей Жуков... in Data Engineers
Они,  конечно,  так себе,  но хотя бы на попробовать можно брать
источник

AZ

Anton Zadorozhniy in Data Engineers
Gev
Блин. Как бы все метаданные от всего поместить в одно место. И так чтобы аналитики могли смотреть крутить их и сразу брать актуальную версию в схему налету
INSERT/UPDATE в эту единую базу? Не очень понятно в чем ваш вопрос
источник