線性回歸中的誤差及解決措施

來自方差variance的誤差

來自偏置bias的誤差

下面這張圖直觀表示了方差和偏置水平的關係。可以將真實值作為靶心，將帶入擬合的曲線得到的輸出值作為投擲的點，那麼會遇到如下四種（2×2

2\times 2

2×2）情況，分別是：高方差高偏置，高方差低偏置，低方差高偏置，低方差低偏置。

最理想的情況當然是所有點（無論是訓練集還是測試集）正中靶心，此時處於低方差低偏置的情況。

而現實中對資料進行擬合時，經常出現兩種情況：

簡單模型，簡單的模型更趨於平滑，這意味著樣本資料對模型輸出的影響較小，也就是說這些投擲點靠攏更密集，更注重趨勢而非精度，因此雖然它們之間的方差較小，但距離靶心更遠，導致偏置較大。

複雜模型，複雜模型跳動更大，這意味著投擲點離散程度較大，因此方差較大。但對一些資料能夠很好的適配，因此偏置較小。

下面是模型出問題的兩種可能的情況：

對於大方差模型的兩種結局措施：

增大資料集

正則化來使擬合的曲線更加平滑

交叉檢驗可以衡量乙個模型的優劣，其做法是將訓練集分成兩部分，一部分用於訓練，另一部分起測試的作用，用於檢驗模型的優劣。

n折交叉檢驗是另乙個檢驗模型的方法，這是將訓練集分為n

nn 部分，其中n−1

n-1n−

1部分作為訓練集分別訓練模型，剩下一部分作為測試集進行測試。選擇模型時，取同乙個模型不同訓練與測試的誤差的平均值，在不同模型間比較平均值來進行模型的選擇。

線性回歸中的對於「線性」的理解

所謂線性回歸，那當然一定是線性才能用的回歸。如果你的自變數和因變數之間的關係都不是線性關係，那還叫什麼線性回歸？假設x是自變數，y是因變數，且滿足如下線性關係 y i beta 0 beta 1xi nu i 其實線性假定並不要求初始模型都呈上述的嚴格線性關係，可以通過對自變數和因變...

線性回歸中的數學原理

優點結果易於理解，計算上不複雜缺點對非線性的資料擬合不好適用資料型別數值型和標稱型基本步驟收集資料準備資料分析資料訓練演算法測試演算法使用演算法平方誤差的計算公式 su m 1,m yi x it w 2 t在這裡代表矩陣的轉置，是python中常用的語法 w最優解公式 w...

簡單分析線性回歸中的梯度下降

對於回歸問題，我們的目標是要找到乙個模型，或者說hypothesis，使之能夠對於我們乙個輸入，能夠返回我們預期的結果。也就是說，假設在我們的資料集和結論集之間存在乙個完美的對應關係f使得所有資料集都能正確得出結果，那我們的模型h應該與f之間的差距盡可能的小。所以，我們靠瞎猜來矇到這個h肯定是不現...

線性回歸中的誤差及解決措施

線性回歸中的對於「線性」的理解

線性回歸中的數學原理

簡單分析線性回歸中的梯度下降

相關推薦