Телеграмм чат группы hadoopusers страница 3878

Size: a a a

Data Engineers

2634 membersпожаловаться на группу

2021 July 11

Nikita Blagodarnyy in Data Engineers

Обновляйте в каждом батче макс мин и вновь приходящие данные нормируйте этим.

источник

22:23пожаловаться #1

Ivoya in Data Engineers

Попробую, спасибо

источник

22:26пожаловаться #2

ПФ

Паша Финкельштейн... in Data Engineers

Кажется мы просто постоянно храним текущее самое большое и самое меньшее значение и нормируем новые приходящие значения по ним. Начнётся неточно, но чем больше данных - тем точнее будет

источник

22:55пожаловаться #3

Ivoya in Data Engineers

Пока звучит как самый простой для реализации вариант

источник

23:57пожаловаться #4

Ivoya in Data Engineers

Переслано от Паша Финкельштейн...

источник

23:57пожаловаться #5

Ivoya in Data Engineers

Но каких-то встроенных штук нет под такую нужду?

источник

23:57пожаловаться #6

2021 July 12

ПФ

Паша Финкельштейн... in Data Engineers

Вроде описанное и является встроенными средствами?

источник

00:04пожаловаться #7

Oleg in Data Engineers

Может быть это как-то прикрутить?
https://spark.apache.org/docs/latest/ml-features#minmaxscaler

источник

00:54пожаловаться #8

Жмака in Data Engineers

Может, кто скинуть ссылку на хороший канал в телеграмме для джавы?

источник

07:41пожаловаться #9

Жмака in Data Engineers

Или может тут кто может со спрингом помочь?

источник

07:41пожаловаться #10

АБ

Артемий Богданов... in Data Engineers

@it_chats

источник

08:07пожаловаться #11

Жмака in Data Engineers

Спасибо

источник

08:10пожаловаться #12

Ivoya in Data Engineers

Окей, спасибо!

источник

08:28пожаловаться #13

Ivoya in Data Engineers

Переслано от Паша Финкельштейн...

Вроде описанное и является встроенными средствами?

источник

08:28пожаловаться #14

Ivoya in Data Engineers

Может быть это как-то прикрутить?
https://spark.apache.org/docs/latest/ml-features#minmaxscaler

источник

08:28пожаловаться #15

Mi in Data Engineers

Добрый день, тут есть успешные пользователи kfserving?

источник

13:21пожаловаться #16

Andrey Bel in Data Engineers

Всем привет - столкнулись с проблемой в Google cloud - может у кого был похожий кейс - пропадания хартбита и вследстии этого завершения работы спарка с ошибкой? корректно проходит много итераций обучения модели и примерно через 5 часов на очередной итерации нет ответа от драйвера насколько я понимаю и вылетает
ERROR Executor: Exit as unable to send heartbeats to driver more than 60 times
До этого падало при таких же обстоятельствах но с classNotFoundExceptioin - т.е. проходили интерации норм но после 5 часов работы программа не могла найти класс который до этого использовала( первым делом подумали про то что может гарбедж коллектор удалял класс из jvm но промониторили память там вроде все ок без аномалий
В логах ошибки написано что можно увеличить хардбит но это костыльное решение насоклько понимаю - возможно это изза каких то проблем сетью?
Заранее спасибо кто чем мыслями поделиться)

источник

13:49пожаловаться #17

Sergey Ufimtsev in Data Engineers

Всем привет! А какая fraction памяти спарк используется для сжатия данных для спилла (storage ?). Что еще можно сделать для избежания редких оом при спиле ? (больше партиций ?)

источник

14:27пожаловаться #18

Алексей in Data Engineers

+ бороться с перкосами данных

источник

15:48пожаловаться #19

Oleg Ilinsky in Data Engineers

Привет!
Кто-нибудь видел у спаркового джоба ошибку
Task exited with return code -8
Чота вообще ничего найти не могу, падает на этапе to_pandas

источник

17:06пожаловаться #20