Ни в стохастические методы оптимизации народ особо не копал, ни железо не оптимайзили под это, да и вообще народ не хотел трогать то, что тотально зафейлилось в 80х
Собственно, началось всё с работы Крижевского, когда на AlexNet он получил на первых трёх слоях свертки, которые народ из computer vision активно ресерчил кучу лет