機器學習中對假設的評價

在機器學習中，按照ng的說法，常見的做法是先使用乙個簡單的模型來進行計算，然後找到其中容易出現的問題和樣本的一些特徵，解決之後再使用較為複雜的模型，這樣會比較節省時間，下面介紹一些常見對假設進行評價的方法。

首先在機器學習中常見的對樣本的分類方式是60%的訓練集(training set)，20%的交叉驗證集(cross validation set)，20%的測試集(testing set)。其中的訓練集和交叉驗證集用於對假設引數進行優化，比如

λ 和

θ 等，測試集僅用來求得假設的泛化誤差。

1.關於偏差(bias)和方差(variance)

這是兩個比較容易混淆的概念，由兩幅影象來說明

以上這種情況屬於欠擬合狀態，在測試集的階段就會有很大的誤差(error)，這就是一種高偏差的狀態，常見的解決方法也就是增加特徵(feature)的數目或者增加平方特徵項等，以及減小正則項的係數

λ ，注意在這樣的情況下增加樣本數不會有作用，這在後面談到學習曲線的地方會有詳細說明。

以上這樣的情況屬於過擬合狀態，測試集的誤差很小，但是如果放到交叉驗證集會產生很大的誤差，這就是一種高方差的狀態，要解決這樣的問題，與上面欠擬合的方式相反，可以通過去掉一些不太起作用的特徵項或者增大

λ 來解決，在這樣的情況下，增加樣本的數量也是有顯著作用的。

2.學習曲線

學習曲線也就是將測試集和交叉驗證集的誤差對於樣本個數的曲線，如下圖表示，同樣分為欠擬合與過擬合兩種情況

以上便為欠擬合的狀態，其顯著特徵為：隨著訓練集樣本的增加，jt

rain

(θ) 迅速上公升，jc

v(θ)

迅速下降，並且在樣本集還不是太大的時候就已經差不多相等，在這樣的情況下，當樣本數超過某乙個值的時候，學習曲線不會發生顯著的改變，也就是說再增加樣本個數並不能夠改善欠擬合的狀態。

以上為過擬合的狀態，可以看到在樣本個數較小的時候，jc

v(θ)

和jtr

ain(

θ)之間有較大的間隔，隨著樣本數目的增加，這個間隔在逐漸的減小並且jc

v(θ)

和jtr

ain(

θ)也趨近於乙個穩定的誤差值，也就是說增加樣本個數對於當前過擬合的狀態是有明顯改善的。

至於學習曲線的繪製，可以在1~m之間取多個間隔點分別訓練模型，然後分別求出它們的jc

v(θ)

和jtr

ain(

θ)，這裡需要注意的是，在訓練模型的時候是包含了正則項的，但是在求誤差的時候是沒有計算正則項的，這個誤差被定義為||

hθ(x

)−y|

|22∗

m ，也就是線性回歸中除去代價函式的部分。

3.其他的評價指標

在分類問題中，我們常用準確率來評價乙個模型的好壞，但是在某些情況下，單獨用準確率來評價乙個模型並不是合理的，尤其是在不同分類間的數目出現有較大偏差的時候，也就是出現skewed classes的時候。

舉個例子，當我們需要根據腫瘤的大小，形狀等引數來**腫瘤是良性還是惡性的時候，由於大多數情況都會是良性，所以在假設全為0的時候會出現很高的準確率，但是這樣做很明顯是不合理的。

於是另外引入兩個概念，分別是查準率(precision)和查全率(recall)，查準率定義為**為真，實際也為真的個數與**為真的個數的比值，查全率定義為**為真，實際也為真的個數與實際為真的個數的比值。通常準確與全面這二者不可兼得，我們可以通過調整logistic函式的閾值來滿足我們對這兩者的要求。例如在需要較高準確性的時候，可以調高閾值從0.5到0.7或者更高，這樣對於**為真的條件就更為嚴格，也就會得到更高的查準率，相反的，如果需要**地更加全面，可以調低相應的閾值。

機器學習中對假設的評價

機器學習評價方法

機器學習學習中評價模型好壞的標準

機器學習擬合效果評價機器學習效果評價標準

機器學習中對假設的評價

機器學習評價方法

機器學習學習中評價模型好壞的標準

機器學習擬合效果評價 機器學習效果評價標準

相關推薦

機器學習擬合效果評價機器學習效果評價標準