K近鄰解析統計學習方法李航

k近鄰（knn）是一種基本的分類與回歸方法。

k近鄰輸入的例項為特徵向量，輸出為例項的類別。可以取很多類。

k近鄰實際上利用訓練資料集對特徵向量空間進行劃分，並作為其分類的「模型」。

k值的選擇距離度量分類決策規則是k近鄰的三要素。

k近鄰演算法簡單、直觀：給定乙個資料集，對於新輸入的例項，在訓練資料集中找到與該例項最近鄰的k個例項，這k個例項的多數屬於某個類，就把該輸入例項分為這個類。

特徵空間中兩個例項點的距離是兩個例項點相似程度的反映。

k值的選擇：

如果選擇較小的k值，那麼相當於用較小的鄰域中的訓練例項進行**，這樣學習的近似誤差會減小，但是模型會變複雜，容易發生過擬合。如果周圍恰巧是雜訊，那就容易**錯誤。

如果選擇較大的k值，那麼相當於用較大的鄰域中的訓練例項進行**，這樣學習的近似誤差增大，但是模型會變簡單，離**點比較遠的點也會對**起作用，（相關度不大），使**發生錯誤。

在應用中，k值一般選取乙個比較小的數字，通常採用交叉驗證法來選取最優的k值。

分類決策規則：

分類決策為多數表決。

多數表決等價於經驗風險最小化。

kd樹的構建和搜尋統計學習方法寫的很清楚，再次就不敘述。

統計學習方法（李航）學習筆記（三）k近鄰法

說點沒用的前段時間一直在忙畢業的事情，時間比較緊湊，這幾天閒下來了，blog還是要撿起來加油寫的，加油吧，為不要成為中年失業者而奮鬥！1 k近鄰的輸入為例項的特徵向量，對應特徵空間中的點，輸出為例項的類別可以取多類 2 k近鄰演算法的通過周圍的多個點，通過多數表決的方法進行因此k近鄰演算法不...

統計學習方法概論《統計學習方法》李航著

統計學習由監督學習，非監督學習，半監督學習和強化學習組成。監督學習方法主要包括分類標註與回歸問題回歸問題輸入變數和輸出變數均為連續變數的問題分類問題輸出變數為有限個離散變數的問題標註問題輸入與輸出變數均為變數序列的問題統計學習三要素模型，策略，演算法損失函式度...

（李航統計學習方法）提公升方法

本文主要包括adaboost和提公升樹，後期會擴充套件到xgboost和lightgbm。boosting通過改變樣本訓練權重，學習多個弱分類器，最後進行線性組合，提高分類效能。兩個著重點如何改變資料的樣本權重或概率分布如何將弱分類器整合成強分類器初始化樣本資料權重，假設樣本權重均勻分布，得到...

K近鄰解析 統計學習方法 李航

統計學習方法（李航）學習筆記（三）k近鄰法

統計學習方法概論 《統計學習方法》李航著

（李航統計學習方法）提公升方法

相關推薦

K近鄰解析統計學習方法李航

統計學習方法概論《統計學習方法》李航著