Size: a a a

2020 November 07

f

fozz1k in Data Engineers
скиньте пж если знаете
источник

f

fozz1k in Data Engineers
я не нашел
источник

SZ

Sergei Zotov in Data Engineers
В личку скинул, думаю, и одного должно хватить. И закинул линк на гитхаб, где ещё несколько чатов
источник
2020 November 08

АА

Алексей Артамонов... in Data Engineers
@dartov а jupyterhub через PAM работает по дефолту или надо что-то поднастраивать?
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей Артамонов
@dartov а jupyterhub через PAM работает по дефолту или надо что-то поднастраивать?
нет, это authenticator по умолчанию
источник

АА

Алексей Артамонов... in Data Engineers
У меня просто фейл. И пользователя я добавил в группу jupyterhub, а сам юпитерхаб запускаю от него же
источник

G

Gev in Data Engineers
Народ. Вот сам уже устал от выбора но вроде как серебряной пули нет.
Есть данные в паркете. И надо часть данных отдать пользователям на редактирование в веб интерфейсе. Сейчас скидываю часть данных в постгре одним бачем одним потоком. Но это к сожалению не дает гарантии доставки. Думал взять hbase. Для этого. Понял что индексировать и сортировать там не выйдет. Про кссандру даже не думаю, девопс от хбейза подохренел а от поддержки кассандры откажется наотрез. Остается вариант скидывать в темповую табличку в постгре и потом запускать процедуру для заливки из темпа в основную таблицу. Это рабочий вариант и я так уже делал. Но вот хочу спросить, может у кого есть более заковыристое решение, где доставка была бы если не гарантированной то хотя бы повторяемой для достижения валидности данных в мастер системе.
источник

G

Gev in Data Engineers
Надо учитывать что есть такие вопросы как количество доступных соединений к постгре, чтобы задавать это спарку. Запуск процедуры постгресовой извне. Отслеживание выполнения всего этого в единой «транзакции»
источник

ME

Max Efremov in Data Engineers
Gev
Народ. Вот сам уже устал от выбора но вроде как серебряной пули нет.
Есть данные в паркете. И надо часть данных отдать пользователям на редактирование в веб интерфейсе. Сейчас скидываю часть данных в постгре одним бачем одним потоком. Но это к сожалению не дает гарантии доставки. Думал взять hbase. Для этого. Понял что индексировать и сортировать там не выйдет. Про кссандру даже не думаю, девопс от хбейза подохренел а от поддержки кассандры откажется наотрез. Остается вариант скидывать в темповую табличку в постгре и потом запускать процедуру для заливки из темпа в основную таблицу. Это рабочий вариант и я так уже делал. Но вот хочу спросить, может у кого есть более заковыристое решение, где доставка была бы если не гарантированной то хотя бы повторяемой для достижения валидности данных в мастер системе.
А просто спарком прочитать и записать в бд не выйдет?
источник

G

Gev in Data Engineers
Max Efremov
А просто спарком прочитать и записать в бд не выйдет?
Что значит просто?
источник

S

Stanislav in Data Engineers
А какой размер данных то?
источник

ME

Max Efremov in Data Engineers
Считать и записать через jdbc в постгрю
источник

G

Gev in Data Engineers
Просто через jdbc напрямую в постгре - если не дышать над потоком и он один - да. Сейчас так и реализовано
источник

ME

Max Efremov in Data Engineers
Вроде не должно что-то теряться
источник

G

Gev in Data Engineers
Max Efremov
Вроде не должно что-то теряться
Все просто. Если вотвремя записи сетка моргнет - то получим кусок в постгре
источник

G

Gev in Data Engineers
Stanislav
А какой размер данных то?
Разный. Зависит от даты. Но в целом не большой. До гига я думаю в день. Тут важно что доставка должна быть гарантирована
источник

ME

Max Efremov in Data Engineers
Ох, к счастью, с нестабильной сетью пока не сталкивался
источник

G

Gev in Data Engineers
Max Efremov
Ох, к счастью, с нестабильной сетью пока не сталкивался
Ну вот не дай бог. На проде у нас доступа нет и если там примари кей поплывет - наступит коллапс
источник

S

Stanislav in Data Engineers
Gev
Разный. Зависит от даты. Но в целом не большой. До гига я думаю в день. Тут важно что доставка должна быть гарантирована
А обратно надо забирать? Или цель просто выкинуть паркет куда-то?
источник

ME

Max Efremov in Data Engineers
Со стейджингом, кстати, норм идея, мы сейчас так данные апсёртим из промежуточной
источник