Size: a a a

2020 September 10

AZ

Anton Zadorozhniy in Data Engineers
или как вариант - кажому юзеру кластер и бюджет, если вылез - плати из кармана, тогда быстро все образуются
источник

AZ

Anton Zadorozhniy in Data Engineers
я второй вариант (в каком-то виде) все чаще встречаю
источник

ME

Max Efremov in Data Engineers
Anton Zadorozhniy
или как вариант - кажому юзеру кластер и бюджет, если вылез - плати из кармана, тогда быстро все образуются
там не только бюджет, сколько именно секьюрити составляющая
источник

AE

Alexey Evdokimov in Data Engineers
ну ежели при убийстве цеплин хотел что-то куда-то записать в фс, то без дескрипторов он не смог. и развалился.
источник

AE

Alexey Evdokimov in Data Engineers
что логично
источник

AZ

Anton Zadorozhniy in Data Engineers
Max Efremov
там не только бюджет, сколько именно секьюрити составляющая
если все на терраформе то секьюрити уже в infra as code, просто катить его не для группы, а для каждого пользователя
источник

ME

Max Efremov in Data Engineers
Alexey Evdokimov
ну ежели при убийстве цеплин хотел что-то куда-то записать в фс, то без дескрипторов он не смог. и развалился.
ну кстати новая сессия у него нормально работает, спарк интерпретатор запускается
источник

AZ

Anton Zadorozhniy in Data Engineers
персистентные многопользовательские EMR это антипаттерн, спросите любого
источник

ME

Max Efremov in Data Engineers
а у ливи:
"io.netty.channel.ChannelException: Unable to create Channel from class class io.netty.channel.socket.nio.NioServerSocketChannel"
"java.lang.NullPointerException"
"java.lang.IllegalStateException: failed to create a child event loop"
источник

AE

Alexey Evdokimov in Data Engineers
а, ну сокеты это такой же ресурс
источник

AE

Alexey Evdokimov in Data Engineers
их то енадо освобождаить
источник
2020 September 11

ПБ

Повелитель Бури... in Data Engineers
Добрый день, коллеги! Такая фактура

есть сторонний сервис который пишет со скоростью 15 000 json в секунду
структура json город, его признаки, значение признака
летят туча дублей которые хочется фильтровать

выбираю между hbase или касандрой,  но может я перезакладываюсь и можно попроще?

спасибо
источник

A

Alex in Data Engineers
json это обычно документы, а вы выбираете из column oriented db. Почему?
источник

S

Stanislav in Data Engineers
любой промежуточный дедупликатор может выдать дубль
ну и да, почему не редис?
источник

ПБ

Повелитель Бури... in Data Engineers
Alex
json это обычно документы, а вы выбираете из column oriented db. Почему?
по факту это таблица: уникальный ключ это город+атрибут, timestamp, значение.
Данные потому будут использоваться для аналитики
источник

A

Alex in Data Engineers
тогда просто формируйте из этих атрибутов ключ и по нему каждый раз помещайте данные по мере их поступления в базу. Таким образом у вас всегда будут последние актуальные данные по этому ключу и фактически эмуляция дедубликации(при необходимости с версионностью). А саму базу уже подбирайте исходя из будущего удобства для аналитики
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
Добрый день, коллеги! Такая фактура

есть сторонний сервис который пишет со скоростью 15 000 json в секунду
структура json город, его признаки, значение признака
летят туча дублей которые хочется фильтровать

выбираю между hbase или касандрой,  но может я перезакладываюсь и можно попроще?

спасибо
А на чем у вас, клауд какой или своё железо?
источник

ПБ

Повелитель Бури... in Data Engineers
Anton Zadorozhniy
А на чем у вас, клауд какой или своё железо?
свои виртуалки
источник

AZ

Anton Zadorozhniy in Data Engineers
Повелитель Бури
свои виртуалки
А какие-то из этих баз умеете держать в продакшене?
источник

ПБ

Повелитель Бури... in Data Engineers
Anton Zadorozhniy
А какие-то из этих баз умеете держать в продакшене?
mssql JSON_VALUE  не успевает прожевать и распарсить поток 15 000 json в секунду
источник