Size: a a a

2021 July 11

N

Nikita Blagodarnyy in Data Engineers
Обновляйте в каждом батче макс мин и вновь приходящие данные нормируйте этим.
источник

I

Ivoya in Data Engineers
Попробую, спасибо
источник

ПФ

Паша Финкельштейн... in Data Engineers
Кажется мы просто постоянно храним текущее самое большое и самое меньшее значение и нормируем новые приходящие значения по ним. Начнётся неточно, но чем больше данных - тем точнее будет
источник

I

Ivoya in Data Engineers
Пока звучит как самый простой для реализации вариант
источник

I

Ivoya in Data Engineers
Переслано от Паша Финкельштейн...
Кажется мы просто постоянно храним текущее самое большое и самое меньшее значение и нормируем новые приходящие значения по ним. Начнётся неточно, но чем больше данных - тем точнее будет
источник

I

Ivoya in Data Engineers
Но каких-то встроенных штук нет под такую нужду?
источник
2021 July 12

ПФ

Паша Финкельштейн... in Data Engineers
Вроде описанное и является встроенными средствами?
источник

O

Oleg in Data Engineers
Может быть это как-то прикрутить?
https://spark.apache.org/docs/latest/ml-features#minmaxscaler
источник

Ж

Жмака in Data Engineers
Может, кто скинуть ссылку на хороший канал в телеграмме для джавы?
источник

Ж

Жмака in Data Engineers
Или может тут кто может со спрингом помочь?
источник

АБ

Артемий Богданов... in Data Engineers
источник

Ж

Жмака in Data Engineers
Спасибо
источник

I

Ivoya in Data Engineers
Окей, спасибо!
источник

I

Ivoya in Data Engineers
Переслано от Паша Финкельштейн...
Вроде описанное и является встроенными средствами?
источник

I

Ivoya in Data Engineers
Может быть это как-то прикрутить?
https://spark.apache.org/docs/latest/ml-features#minmaxscaler
источник

M

Mi in Data Engineers
Добрый день, тут есть успешные пользователи kfserving?
источник

AB

Andrey Bel in Data Engineers
Всем привет - столкнулись с проблемой в Google cloud -  может у кого был похожий кейс - пропадания хартбита и вследстии этого завершения работы спарка с ошибкой? корректно проходит много итераций обучения модели и примерно через 5 часов на очередной итерации нет ответа от драйвера насколько я понимаю и вылетает
ERROR Executor: Exit as unable to send heartbeats to driver more than 60 times
До этого падало при таких же обстоятельствах но с classNotFoundExceptioin - т.е. проходили интерации норм но после 5 часов работы программа не могла найти класс который до этого использовала( первым делом подумали про то что может гарбедж коллектор удалял класс из jvm  но промониторили память там вроде все ок без аномалий
 В логах ошибки написано что  можно увеличить хардбит но это костыльное решение насоклько понимаю - возможно это изза каких то проблем сетью?
Заранее спасибо кто чем мыслями поделиться)
источник

SU

Sergey Ufimtsev in Data Engineers
Всем привет! А какая fraction памяти спарк используется для сжатия данных для спилла (storage ?). Что еще можно сделать для избежания редких оом при спиле ? (больше партиций ?)
источник

А

Алексей in Data Engineers
+ бороться с перкосами данных
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
Кто-нибудь видел у спаркового джоба ошибку
Task exited with return code -8
Чота вообще ничего найти не могу, падает на этапе to_pandas
источник