так чисто общий вопрос, как вы думаете, из-за чего происходит следующее в тренировке:
например размер батча 128, и 391 батчей, то есть в целом датасет в размер 50048 прогоняется каждый ипок.
Теперь, я оставил shuffle=True, и вот для меня неожиданно достаточно, что например из 4-5 прогонов тренировки, иногда выходит результат на 5-7 процентов лучше других, лосс оказывается меньше, точность как написал лучше, и для меня чисто теоретически странно, ведь каждый эпок мой "тренер" смотрит на весь датасет, хоть и в иных комбинациях из-за shuffle-a, как так получается, есть какие-то мысли по этому поводу ?