Артём Глазунов
Ну, кстати, на вопрос мы немного не ответили) Ведь на практике регуляризация используется для борьбы с переобучением. То есть грубо модель стремится запомнить обучающаю выборку, растит свои параметры. При этом при переходе к другой обучающей выборке оценки параметров будут уже другие (ну вот как раз дисперсия оценок) . На тесте качество будет не очень, потому что параметры подстроены именно под обучение. Вводя штраф, мы ей мешаем это сделать, усложняем ей работу, коэффициенты не так растут, в результате предсказания теста лучше. То есть мы как бы упрощаем модель. Для сетей популярна регуляризация дропаутом, мы сеть прореживаем, так её упрощаем, при этом делаем это каждый раз (грубо для каждого объекта обучения) случайно, то есть не даём набрать веса, подогнаться под обучение, при этом относительный масштаб весов выравнивается, нет очень больших или маленьких весов. То есть грубо, имея мало данных и много признаков можно подогнаться под обучение. И чем больше признаков, тем больше нужно данных, чтобы модель уловила в параметрах все тонкости каждого. Вводим штраф, ограничиваем веса и не даём каким-то параметрам "вылезать" по масштабу из общей массы (а вдруг признак шумовой? ) в результате обобщающая способность модели лучше, что выражается в результатах на разных тестах. Чёт много я написал, сорри))
это написали, просто в две строки. Вопрос был, почему именно мультиколлинеарность этим побарывается. И ответ тоже был неявно, быть может - мы вносим bias в оценки коэффициентов, но за счет этого у нас дисперсия оценок становится меньше. То есть ответ - она не побарывается, просто мы получаем чуть более трактабельные коэффициенты, а в некоторых случаях получаем в принципе возможность хоть какое-то решение получить