機器學習中的偏差 方差 過擬合

2021-10-06 17:05:36 字數 983 閱讀 7943

1. 方差大:訓練集的誤差小,驗證集誤差大,對應模型過擬合

2. 偏差大:如果訓練集和驗證集的誤差接近,且都偏大,說明模型效果差,欠擬合

3. 偏差小、方差小:訓練集和驗證集誤差差不多,都比較小,說明模型效果好

1. 高偏差(無法擬合訓練資料):換乙個更大的模型或網路,模型訓練久一點

2. 高方差(過擬合):增大資料集,正則化

理解模型的偏差和方差,可以判斷模型的表現,進而採取相應的措施,達到更好的效果。

過擬合的直觀表現是演算法在訓練集上表現好,但在測試集上表現不好,泛化效能差。過擬合是在模型引數擬合過程中由於訓練資料報含抽樣誤差,在訓練時複雜的模型將抽樣誤差也進行了擬合導致的。所謂抽樣誤差,是指抽樣得到的樣本集和整體資料集之間的偏差。直觀來看,引起過擬合的可能原因有:

(1)模型本身過於複雜,以至於擬合了訓練樣本集中的雜訊。此時需要選用更簡單的模型,或者對模型進行裁剪。

(2)訓練樣本太少或者缺乏代表性。此時需要增加樣本數,或者增加樣本的多樣性。

(3)訓練樣本雜訊的干擾,導致模型擬合了這些雜訊,這時需要剔除雜訊資料或者改用對雜訊不敏感的模型。

2.1 正則化

這裡要講的是,為什麼正則化可以防止過擬合。

2.2 dropout

(1)dropout是使網路的神經元隨機失活,實施:

設定乙個d矩陣,元素為0和1,有keep-prop概率講d設為1。如keep-prop=80%,則d矩陣,80%元素為1,20%元素為0,。然後每一層網路的啟用函式輸出乘上d矩陣,這樣隨機失活神經元。

(2)dropout的缺點:loss函式很難定義,不好計算。所以先把keep-prop設為1,關閉dropout確保loss函式單調遞減,再把dropout開啟。

(3)在測試階段,如果使用dropout,測試結果會受到干擾,所以測試階段不使用dropout.

2.3 其他方法

(1)增加資料樣本,如資料增強

(2)提前停止訓練,在中間停止迭代過程,缺點是,模型沒有訓練足夠長時間。

機器學習 偏差 方差與欠擬合 過擬合

首先,我們先來理解一下偏差與方差的概念。舉個高中數學裡經常出現的例子,兩個射擊選手在射靶。甲射出的子彈很集中在某個區域,但是都偏離了靶心。我們說他的射擊很穩定,但是不夠準,準確性差。也就是說他的方差小 子彈很集中在某個區域 但是他的偏差大 子彈打中的地方距離靶心遠 相反,乙射出的子彈比較分散,但是有...

吳恩達機器學習 偏差與方差 欠擬合與過擬合

在吳恩達機器學習課程的第86課時中,講解了偏差和方差與欠擬合和過擬合的關係。1 偏差與方差的概念 先看下網上關於偏差與方差的例子。該例子可以理解為射擊打靶。偏差指的是多次射擊的平均環數與環心的偏差度,顯然上方的兩個圖的偏差較小,而下方兩圖偏離圓心較遠,偏差較大。方差指的是多次射擊的成績穩定狀態,顯然...

方差和偏差來分析 深度學習中的過擬合 欠擬合

偏差和方差的定義介紹 假設乙個識別狗演算法分類器 1.過擬合 訓練集錯誤率 1 測試集錯誤率 15 偏差為 1 方差為 15 1 14 總誤差為 15 雖然分類器訓練誤差非常低,但是沒能成功泛化到測試集。這叫做過擬合。2.欠擬合 訓練集錯誤率 15 測試集錯誤率 16 偏差為 15 方差為 1 總誤...