Можно повесить L2 регуляризацию на W и проследить, что на входе X не слишком огромные. Тогда под экспонентой не будет слишком больших чисел тоже.
Как вариант, можно аргумент сигмоиды клипать прям перед подачей в неё.
Вот регуляризацию использовать я еще не пробовал, т.к. ее понимал проблему. Обязательно попробую, спасибо. Ну а что такое "клипать" я не знаю))