更新4 嶺回歸和lasso回歸

在第七講時，我們介紹了多元線性回歸模型，估計回歸係數使用的是ols，並在最後**了異方差和多重共線性對於模型的影響。事實上，回歸中關於自變數的選擇大有門道，變數過多時可能會導致多重共線性問題造成回歸係數的不顯著，甚至造成ols估計的失效。

本節介紹到的嶺回歸和lasso回歸在ols回歸模型的損失函式上加上了不同的懲罰項，該懲罰項由回歸係數的函式構成，

一方面，加入的懲罰項能夠識別出模型中不重要的變數，對模型起到簡化作用，可以看作逐步回歸法的公升級版；

另一方面，加入的懲罰項能夠讓模型變得可估計，即使之前的資料不滿足列滿秩

多元線性回歸

一般現在都是用lasso回歸

總結：何時使用lasso回歸？

我們首先使用最一般的ols對資料進行回歸，然後計算方差膨脹因子vif，如果vif>10則說明存在多重共線性的問題，此時我們需要對變數進行篩選。

在第七講時我們提到可以使用逐步回歸法來篩選自變數，讓回歸中僅留下顯著的自變數來抵消多重共線性的影響，學完本講後，大家完全可以把lasso回歸視為逐步回歸法的高階版，我們可以使用lasso回歸來幫我們篩選出不重要的變數，步驟如下：

（1）判斷自變數的量綱是否一樣，如果不一樣則首先進行標準化的預處理；

（2）對變數使用lasso回歸，記錄下lasso回歸結果表中回歸係數不為0的變數，這些變數就是最終我們要留下來的重要變數，其餘未出現在表中的變數可視為引起多重共線性的不重要變數。

在得到了重要變數後，我們實際上就完成了變數篩選，此時我們只將這些重要變數視為自變數，然後進行回歸，並分析回歸結果即可。（注意：此時的變數可以是標準化前的，也可以是標準化後的，因為lasso只起到變數篩選的目的）