機器學習中的偏差和方差

2021-09-01 23:39:30 字數 1562 閱讀 2668

機器學習中誤差的**主要有兩個方面:bias(偏差)variance(方差)。只有找到誤差的**,才能為下一步的模型優化提供方向。

這裡以估計隨機變數 x 的均值和方差為例,進行分析。假設,對於隨機變數 x:

1.1 首先考慮均值

我們在總體中取出 n 個樣本 ,對隨機變數 x 的均值作估計:

m = 1n∑

xn\frac\sum_{}^{}x^n

n1​∑​x

n ≠ ?

e(m) = e[1n∑

xn\frac\sum_{}^{}x^n

n1​∑​x

n ] = 1n∑

\frac\sum_{}^{}

n1​∑

​e[x

nx^n

xn] = ?

其中,方差隨著 n 的增大而減小。

1.2 再考慮方差

同樣,我們在總體中取出 n 個樣本 ,對隨機變數 x 的方差作估計:

s = 1n∑

(xn−

m)2\frac\sum_{}^{}(x^n - m)^2

n1​∑​(

xn−m

)2≠ ?2

e(s2) = n−1

n\frac

nn−1

​?2 ≠ ?2

也就是說,s2 是 ?2 的有偏估計量,s2 與 ?2 之間的誤差既來自於 bias ,也來自於 variance。同樣,方差隨著 n 的增大而減小。

1.3 總結

bias(偏差)決定了估計值和真實值之間的偏移量,而 variance(方差)決定了多次估計值之間的分散程度。以打靶為例,bias 對應於我們瞄的點與靶心之間的距離;variance 對應於由其他原因導致的誤差。

用一張圖來形象地總結偏差和方差之間的關係,就是這個樣子:

在機器學習中,bias 和 variance 具有下圖所示的關係。即模型越簡單,bias 越大

,variance 越小;模型越複雜,bias 越小,但 variance 急劇增大。我們需要選擇乙個適當的模型,使得二者之和最小。

2.1 如何確定我們的機器學習模型是高偏差還是高方差?

2.2 如何解決高偏差(large bias)和高方差(large variance)問題?

高偏差通常意味著我們的模型過於簡單,不能夠很好地擬合資料。這時,我們可以採取以下方法:

高方差通常意味著相對於有限的資料,我們的模型過於複雜,除了降低模型複雜度外,我們還可以:

機器學習中的偏差和方差

數學解釋 偏差 描述的是 值 估計值 的期望與真實值之間的差距。偏差越大,越偏離真實資料,如下圖第二行所示。方差 描述的是 值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,資料的分布越分散,如下圖右列所示。機器學習中的偏差和方差 首先,假設你知道訓練集和測試集的關係。簡單來講是我們要在訓練...

機器學習中的偏差和方差

首先了解一下資料集的分類 偏差,可以理解為樣本y與模型 結果的差距,可以使用平方差計算。方差,是樣本y值與模型期望的差的平方和。如果你在訓練集上的錯誤率是 15 即 85 的精度 但你的目標是 5 錯誤率 95 精度 那麼首先要解決的問題是提高演算法在訓練集上的效能。演算法在驗證 測試集上的效能通常...

機器學習中偏差和方差的區別

l2與l1的區別在於,l1正則是拉普拉斯先驗,而l2正則則是高斯先驗。它們都是服從均值為0,協方差為1 當 0時,即沒有先驗 沒有正則項,則相當於先驗分布具有無窮大的協方差,那麼這個先驗約束則會非常弱,模型為了擬合所有的訓練集資料,引數w可以變得任意大從而使得模型不穩定,即方差大而偏差小。越大,標明...