更新4 嶺回歸和lasso回歸

2021-10-17 15:51:21 字數 1158 閱讀 5171

在第七講時,我們介紹了多元線性回歸模型,估計回歸係數使用的是ols,並在最後**了異方差和多重共線性對於模型的影響。事實上,回歸中關於自變數的選擇大有門道,變數過多時可能會導致多重共線性問題造成回歸係數的不顯著,甚至造成ols估計的失效。

本節介紹到的嶺回歸和lasso回歸在ols回歸模型的損失函式上加上了不同的懲罰項,該懲罰項由回歸係數的函式構成,

一方面,加入的懲罰項能夠識別出模型中不重要的變數,對模型起到簡化作用,可以看作逐步回歸法的公升級版;

另一方面,加入的懲罰項能夠讓模型變得可估計,即使之前的資料不滿足列滿秩

多元線性回歸

一般現在都是用lasso回歸

總結:何時使用lasso回歸?

我們首先使用最一般的ols對資料進行回歸,然後計算方差膨脹因子vif,如果vif>10則說明存在多重共線性的問題,此時我們需要對變數進行篩選。

在第七講時我們提到可以使用逐步回歸法來篩選自變數,讓回歸中僅留下顯著的自變數來抵消多重共線性的影響,學完本講後,大家完全可以把lasso回歸視為逐步回歸法的高階版,我們可以使用lasso回歸來幫我們篩選出不重要的變數,步驟如下:

(1)判斷自變數的量綱是否一樣,如果不一樣則首先進行標準化的預處理;

(2)對變數使用lasso回歸,記錄下lasso回歸結果表中回歸係數不為0的變數,這些變數就是最終我們要留下來的重要變數,其餘未出現在表中的變數可視為引起多重共線性的不重要變數。

在得到了重要變數後,我們實際上就完成了變數篩選,此時我們只將這些重要變數視為自變數,然後進行回歸,並分析回歸結果即可。(注意:此時的變數可以是標準化前的,也可以是標準化後的,因為lasso只起到變數篩選的目的)

嶺回歸和lasso回歸

在多元線性回歸模型中估計回歸係數使用的是ols,但同時還也有異方差和多重共線性的影響。回歸中關於自變數的選擇大有門道,變數過多時可能會導致多重共線性問題造成回歸係數的不顯著,甚至造成ols估計的失效。嶺回歸和lasso回歸在ols回歸模型的損失函式上加上了不同的懲罰項,該懲罰項由回歸係數的函式構成,...

嶺回歸 lasso回歸

嶺回歸 ridge regression 和lasso least absolute shrinkage and selection operator 都是ols的改進,知乎上有關於三者異同的詳細討論 關於lasso 這裡記錄一下最近的學習心得。嶺回歸的含義 嶺回歸的權值計算公式中有單位方陣i,就像...

嶺回歸和LASSO

0 對於正則罰項的理解 1 嶺回歸 l2 ridge regression 是一種專用於共線性資料分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分資訊 降低精度為代價獲得回歸係數更為符合實際 更可靠的回歸方法,對病態資料的擬合要強於最小二乘法。關於最小...