機器學習中防止過擬合方法

在進行資料探勘或者機器學習模型建立的時候，因為在統計學習中，假設資料滿足獨立同分布，即當前已產生的資料可以對未來的資料進行推測與模擬，因此都是使用歷史資料建立模型，即使用已經產生的資料去訓練，然後使用該模型去擬合未來的資料。但是一般獨立同分布的假設往往不成立，即資料的分布可能會發生變化（distribution drift），並且可能當前的資料量過少，不足以對整個資料集進行分布估計，因此往往需要防止模型過擬合，提高模型泛化能力。而為了達到該目的的最常見方法便是：正則化，即在對模型的目標函式（objective function）或代價函式（cost function）加上正則項。

在對模型進行訓練時，有可能遇到訓練資料不夠，即訓練資料無法對整個資料的分布進行估計的時候，或者在對模型進行過度訓練（overtraining）時，常常會導致模型的過擬合（overfitting）。如下圖所示：

通過上圖可以看出，隨著模型訓練的進行，模型的複雜度會增加，此時模型在訓練資料集上的訓練誤差會逐漸減小，但是在模型的複雜度達到一定程度時，模型在驗證集上的誤差反而隨著模型的複雜度增加而增大。此時便發生了過擬合，即模型的複雜度公升高，但是該模型在除訓練集之外的資料集上卻不work。

1、提前終止

對模型進行訓練的過程即是對模型的引數進行學習更新的過程，這個引數學習的過程往往會用到一些迭代方法，如梯度下降（gradient descent）學習演算法。early stopping便是一種迭代次數截斷的方法來防止過擬合的方法，即在模型對訓練資料集迭代收斂之前停止迭代來防止過擬合。

early stopping方法的具體做法是，在每乙個epoch結束時（乙個epoch集為對所有的訓練資料的一輪遍歷）計算validation data的accuracy，當accuracy不再提高時，就停止訓練。這種做法很符合直觀感受，因為accurary都不再提高了，在繼續訓練也是無益的，只會提高訓練的時間。那麼該做法的乙個重點便是怎樣才認為validation accurary不再提高了呢？並不是說validation accuracy一降下來便認為不再提高了，因為可能經過這個epoch後，accuracy降低了，但是隨後的epoch又讓accuracy又上去了，所以不能根據一兩次的連續降低就判斷不再提高。一般的做法是，在訓練的過程中，記錄到目前為止最好的validation accuracy，當連續10次epoch（或者更多次）沒達到最佳accuracy時，則可以認為accuracy不再提高了。此時便可以停止迭代了（early stopping）。這種策略也稱為「no-improvement-in-n」，n即epoch的次數，可以根據實際情況取，如10、20、30……

2、資料集擴增

在資料探勘領域流行著這樣的一句話，「有時候往往擁有更多的資料勝過乙個好的模型」。因為我們在使用訓練資料訓練模型，通過這個模型對將來的資料進行擬合，而在這之間又乙個假設便是，訓練資料與將來的資料是獨立同分布的。即使用當前的訓練資料來對將來的資料進行估計與模擬，而更多的資料往往估計與模擬地更準確。因此，更多的資料有時候更優秀。但是往往條件有限，如人力物力財力的不足，而不能收集到更多的資料，如在進行分類的任務中，需要對資料進行打標，並且很多情況下都是人工得進行打標，因此一旦需要打標的資料量過多，就會導致效率低下以及可能出錯的情況。所以，往往在這時候，需要採取一些計算的方式與策略在已有的資料集上進行手腳，以得到更多的資料。

通俗得講，資料機擴增即需要得到更多的符合要求的資料，即和已有的資料是獨立同分布的，或者近似獨立同分布的。一般有以下方法：

如影象處理：

3、正則化

正則化方法是指在進行目標函式或代價函式優化時，在目標函式或代價函式後面加上乙個正則項，一般有l1正則與l2正則等。

3.1、l1正則

在原始的代價函式後面加上乙個l1正則化項，即所有權重w的絕對值的和，乘以λ/n（這裡不像l2正則化項那樣，需要再乘以1/2。）

同樣先計算導數：

上式中sgn(w)表示w的符號。那麼權重w的更新規則為：

比原始的更新規則多出了η * λ * sgn(w)/n這一項。當w為正時，更新後的w變小。當w為負時，更新後的w變大——因此它的效果就是讓w往0靠，使網路中的權重盡可能為0，也就相當於減小了網路複雜度，防止過擬合。

另外，上面沒有提到乙個問題，當w為0時怎麼辦？當w等於0時，|w|是不可導的，所以我們只能按照原始的未經正則化的方法去更新w，這就相當於去掉η*λ*sgn(w)/n這一項，所以我們可以規定sgn(0)=0，這樣就把w=0的情況也統一進來了。（在程式設計的時候，令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1）

3.2、l2正則化

c0代表原始的代價函式，後面那一項就是l2正則化項，它是這樣來的：所有引數w的平方的和，除以訓練集的樣本大小n。λ就是正則項係數，權衡正則項與c0項的比重。另外還有乙個係數1/2，1/2經常會看到，主要是為了後面求導的結果方便，後面那一項求導會產生乙個2，與1/2相乘剛好湊整。

l2正則化項是怎麼避免overfitting的呢？我們推導一下看看，先求導：

可以發現l2正則化項對b的更新沒有影響，但是對於w的更新有影響:

在不使用l2正則化時，求導結果中w前係數為1，現在w前面係數為 1−ηλ/n ，因為η、λ、n都是正的，所以 1−ηλ/n小於1，它的效果是減小w，這也就是權重衰減（weight decay）的由來。當然考慮到後面的導數項，w最終的值可能增大也可能減小。

另外，需要提一下，對於基於mini-batch的隨機梯度下降，w和b更新的公式跟上面給出的有點不同：

對比上面w的更新公式，可以發現後面那一項變了，變成所有導數加和，乘以η再除以m，m是乙個mini-batch中樣本的個數。

到目前為止，我們只是解釋了l2正則化項有讓w「變小」的效果，但是還沒解釋為什麼w「變小」可以防止overfitting？乙個所謂「顯而易見」的解釋就是：更小的權值w，從某種意義上說，表示網路的複雜度更低，對資料的擬合剛剛好（這個法則也叫做奧卡姆剃刀），而在實際應用中，也驗證了這一點，l2正則化的效果往往好於未經正則化的效果。當然，對於很多人（包括我）來說，這個解釋似乎不那麼顯而易見，所以這裡新增乙個稍微數學一點的解釋（引自知乎）：

過擬合的時候，擬合函式的係數往往非常大，為什麼？如下圖所示，過擬合，就是擬合函式需要顧忌每乙個點，最終形成的擬合函式波動很大。在某些很小的區間裡，函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值（絕對值）非常大，由於自變數值可大可小，所以只有係數足夠大，才能保證導數值很大。

而正則化是通過約束引數的範數使其不要太大，所以可以在一定程度上減少過擬合情況。

4、dropout

l1、l2正則化是通過修改代價函式來實現的，而dropout則是通過修改神經網路本身來實現的，它是在訓練網路時用的一種技巧（trike）。它的流程如下：

假設我們要訓練上圖這個網路，在訓練開始時，我們隨機地「刪除」一半的隱層單元，視它們為不存在，得到如下的網路：

保持輸入輸出層不變，按照bp演算法更新上圖神經網路中的權值（虛線連線的單元不更新，因為它們被「臨時刪除」了）。

以上就是一次迭代的過程，在第二次迭代中，也用同樣的方法，只不過這次刪除的那一半隱層單元，跟上一次刪除掉的肯定是不一樣的，因為我們每一次迭代都是「隨機」地去刪掉一半。第三次、第四次……都是這樣，直至訓練結束。

以上就是dropout，它為什麼有助於防止過擬合呢？可以簡單地這樣解釋，運用了dropout的訓練過程，相當於訓練了很多個只有半數隱層單元的神經網路（後面簡稱為「半數網路」），每乙個這樣的半數網路，都可以給出乙個分類結果，這些結果有的是正確的，有的是錯誤的。隨著訓練的進行，大部分半數網路都可以給出正確的分類結果，那麼少數的錯誤分類結果就不會對最終結果造成大的影響。

更加深入地理解，可以看看hinton和alex兩牛2012的**《imagenet classification with deep convolutional neural networks》

參考：

機器學習中防止過擬合方法

機器學習中防止過擬合的處理方法

機器學習中防止過擬合的處理方法

機器學習篇防止過擬合

機器學習中防止過擬合方法

機器學習中防止過擬合的處理方法

機器學習中防止過擬合的處理方法

機器學習篇 防止過擬合

相關推薦

機器學習篇防止過擬合