正則化與交叉驗證

2021-07-27 21:33:36 字數 1984 閱讀 6618

(1)正則化

模型選擇的典型方法是正則化。正則化是結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或者罰項,

正則化項符合奧卡姆剃刀原理。奧卡姆剃刀原理應用於模型選擇時變為一下想法:在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是好模型。從貝葉斯估計的角度來看,正則化項對應於模型的先驗概率,可以假設複雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。正則化的本質就是,給優化引數一定約束。

l0,l1,l2正則化(重點)

l0範數:向量中非0元素的個數。如果用l0範數來規則化乙個引數矩陣w的話,那麼我們希望w的元素大部分都是0。讓引數是稀疏的。l0

範數的最小化問題在實際應用中是

np難問題

,所以在實際中不會應用。

l1範數是向量中各個元素絕對值之和,有個美稱「稀疏規則運算元」,為什麼l1會使權值稀疏?l1範數是l0範數的最優凸近似。既然l0可以實現稀疏,為什麼不用l0,而要用l1呢?個人理解一是因為l0範數很難優化求解(np難問題),二是l1範數是l0範數的最優凸近似,而且它比l0範數要容易優化求解。所以大家才把目光和萬千寵愛轉於l1範數。l1範數和l0範數可以實現稀疏,l1因具有比l0更好的優化求解特性而被廣泛應用。

引數稀疏的好處是什麼?

(1)對稀疏趨之若鶩的乙個關鍵原因就是它能實現特徵的自動選擇。一般來說,樣本x的大部分內容(大部分特徵)都是和最終的輸出y無關的或者不提供任何資訊。在經驗風險最小化的時候,考慮這些特徵,雖然可以提高訓練誤差,但是在**新的樣本時,這些沒用的資訊反而會被考慮,從而干擾了正確的**。稀疏規則運算元就是為了完場特徵自動選擇的光榮使命。它會將沒用的特徵去掉,將這些特徵對應的權重設定為0.

(2)模型可解釋性強。

l2範數是指向量各元素的平方和然後求平方根。在回歸裡面,把有l2 範數的回歸稱為嶺回歸,有人也稱它為權值衰減。我們讓l2範數的規則項最小,可以使得w的每個元素都很小,都接近於0,但與l1範數不同,它不會讓它等於0,而是接近於0,這裡是有很大的區別的。而越小的引數說明模型越簡單,越簡單的模型則越不容易產生過擬合現象。實際上l2範數就是限制了權重引數的增長。

在經驗風險最小化的基礎上,加入了正則化項,相當於是加了約束條件,變成了有約束條件的最優化問題。

上面這幅圖很好的解釋了l1範數與l2範數

l1範數:。l1的輸出影象如上左圖所示,發現l1影象在和每個座標軸相交的地方都有角出現,而目標函式的等值線除非擺的非常好,否則大部分的時候都會在有角的地方相交。而在有角的地方相交會產生稀疏性。

相比之下,l2沒有l1範數這樣的性質,因為沒有角,所以第一次相交的地方出現在具有稀疏性的地方可能性比較小。

即採用l1範數正則化項等值線與經驗風險等值線的交點常常出現自座標軸上,即w1或者w2等於0,這樣就相當於減少了引數的數量。採用l2範數的時候,交點一般出現在某個象限內,即w1,w2均不為0,。換言之l1範數更易於得到稀疏解。

w取得稀疏解意味著初始的d歌特徵中僅僅對應的權重w不為0的特徵才會出現在最終模型中,於是求解l1範數正則化的結果是得到了僅採用一部分初始特徵的模型。l1範數的求解可以採用近端梯度下降pgd。

(2)交叉驗證

在資料量不是很足夠的情況下,為了選擇好的模型,採用交叉驗證的方法。交叉驗證的基本思想就是重複的使用資料,把給定的資料進行切分,將切分的資料集組合為訓練集與測試集。

1,簡單交叉驗證。隨機的將資料集按照一定的比例劃分成兩部分,一部分做訓練集,一部分做測試集。

2,s折交叉驗證。

應用最多的就是s折交叉驗證:首先隨機的將已給資料劃分成s個互不相交的大小相同的子集,然後利用s-1個子集的資料訓練模型,利用餘下的子集做測試模型。將這一過程可能的s種選擇重複進行,最後選出

s次評測中平均測試誤差最小的模型。

3,留一交叉驗證。s折交叉驗證的特殊情況。s=n。往往在資料缺乏的情況下進行。

正則化和交叉驗證

偏差 描述的是 值 估計值 的期望與真實值之間的差距。偏差越大,越偏離真實資料集。方差 描述的是 值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,結果資料的分布越散。high bias 高偏差 就是欠擬合,high variance 高方差 就是過擬合。在損失函式上新增了正則化項,可以對模...

誤差 過擬合 正則化 交叉驗證 泛化能力詳解

機器學習的目的就是使學習得到的模型不僅對訓練資料有好的表現能力,同時也要對未知資料具有很好的 能力,因此給定損失函式的情況下,我們可以得到模型的訓練誤差 訓練集 和測試誤差 測試集 根據模型的訓練誤差和測試誤差,我們可以評價學習得到的模型的好壞。同時需要注意的是,統計學習方法具體採用的損失函式未必是...

交叉驗證與網格搜尋

交叉驗證與網格搜尋是機器學習中的兩個非常重要且基本的概念,但是這兩個概念在剛入門的時候並不是非常容易理解與掌握,自己開始學習的時候,對這兩個概念理解的並不到位,現在寫一篇關於交叉驗證與網格搜尋的文章,將這兩個基本的概念做一下梳理。網格搜尋 grid search 名字非常大氣,但是用簡答的話來說就是...