так а чисто из интереса, если какие-нибудь интересные исследования в области "умных" методов градиент десенда, в плане а куда лучше сначала пойти, направо или вперед ?
Это в целом тема оптимизации ? В целом на данный момент понимаю, что как бы есть SGD, Momentum, Adam и тд, эта эта область ?
Здесь я немного плаваю в теоретической части, но у нас в обычном градиентном спуске есть параметр альфа, скорость обучения. Если он будет свой по каждому параметру, сможем как раз подстраивать направление движения