Alexey
Я правильно понимаю, что регуляризация нужна для уменьшения дисперсии оценок, поэтому большие значения регрессоров это плохо? но странно все равно - большие значения == высокая дисперсия?
Ну, кстати, на вопрос мы немного не ответили) Ведь на практике регуляризация используется для борьбы с переобучением. То есть грубо модель стремится запомнить обучающаю выборку, растит свои параметры. При этом при переходе к другой обучающей выборке оценки параметров будут уже другие (ну вот как раз дисперсия оценок) . На тесте качество будет не очень, потому что параметры подстроены именно под обучение. Вводя штраф, мы ей мешаем это сделать, усложняем ей работу, коэффициенты не так растут, в результате предсказания теста лучше. То есть мы как бы упрощаем модель. Для сетей популярна регуляризация дропаутом, мы сеть прореживаем, так её упрощаем, при этом делаем это каждый раз (грубо для каждого объекта обучения) случайно, то есть не даём набрать веса, подогнаться под обучение, при этом относительный масштаб весов выравнивается, нет очень больших или маленьких весов. То есть грубо, имея мало данных и много признаков можно подогнаться под обучение. И чем больше признаков, тем больше нужно данных, чтобы модель уловила в параметрах все тонкости каждого. Вводим штраф, ограничиваем веса и не даём каким-то параметрам "вылезать" по масштабу из общей массы (а вдруг признак шумовой? ) в результате обобщающая способность модели лучше, что выражается в результатах на разных тестах. Чёт много я написал, сорри))