機器學習演算法 1 4 k值的選擇

舉例說明：

k值過大：

k值選擇問題，李航博士的一書「統計學習方法」上所說：

選擇較小的k值，就相當於用較小的領域中的訓練例項進行**，「學習」近似誤差會減小，只有與輸入例項較近或相似的訓練例項才會對**結果起作用，與此同時帶來的問題是「學習」的估計誤差會增大，換句話說，k值的減小就意味著整體模型變得複雜，容易發生過擬合；

選擇較大的k值，就相當於用較大領域中的訓練例項進行**，其優點是可以減少學習的估計誤差，但缺點是學習的近似誤差會增大。這時候，與輸入例項較遠（不相似的）訓練例項也會對**器作用，使**發生錯誤，且k值的增大就意味著整體的模型變得簡單。

k=n（n為訓練樣本個數），則完全不足取，因為此時無論輸入例項是什麼，都只是簡單的**它屬於在訓練例項中最多的類，模型過於簡單，忽略了訓練例項中大量有用資訊。

在實際應用中，k值一般取乙個比較小的數值，例如採用交叉驗證法（簡單來說，就是把訓練資料在分成兩組:訓練集和驗證集）來選擇最優的k值。

估計誤差：

k值過大：