не совсем понимаю, в каком контексте и смысле тут пишется "biased towards zero". К примеру вообще мне понятие bias знакомо из линеарного классификатора, когда это свободное значение которое сдвигает "туда-сюда" относительно какой-либо оси наш hyperplane классификатора.
Что имеется в виду в этом семействе алгоритмов (Ада, Моментум, Адам), когда речь идет о том, что из-за инитиализации 0 их значение "biased toward 0", ну то есть если в прямом смысле типо если бы инитиализировать любым другим значением, допустим 2, то было бы biased towards 2, но чем формулы с дробей как-либо корректируют то изначальное значение, вокруг которого оно biased ?
Или судя по тексту это чисто эмпирическая находка авторов, и с ней просто нужно смирится ?
Градиентный спуск - это попытка минимизировать суммарный лосс на всей обучающей выборке, и если бы мы знали градиент лосса на всей обучающей выборке, мы бы его точно могли загнать в локальный минимум. Но вместо этого мы делаем выборочную оценку этого градиента на маленьких батчах, и эта оценка - неточная.
"biased towards zero" в этом контексте значит, что оценка градиента на батче по модулю в среднем меньше, чем если бы мы его оценивали на всех наблюдениях сразу.