《統計學習方法》讀書筆記 K鄰近法

在沒接觸knn法（即k鄰近法）之前，覺得這個演算法很高深，應該不是我這種水貨能輕易學會的。看完本章之後不禁豁然開朗，其實道理很簡單，就是乙個多數投票法，像adaboost演算法，但與之相比要簡單一些。最近做的專案和分類有關，恰好書上也只討論了分類問題中的k鄰近法。它的輸入為樣本的特徵向量，對應於特徵空間中的點；輸出為例項的類別，可以去多類。在一些多類分類中經常可以看到k鄰近法的身影，比如動物分類，天氣分類等，這一點是感知機演算法所不能及的（雖然它也能通過某些方法來進行多類分類，但總感覺不如k鄰近法來的利索）。

k鄰近法假設給定乙個資料集，其中各個樣本的類別已定，也就是說，這個演算法的分類是針對新的樣本來說的，即對新的樣本，根據其k個距離最近的訓練樣本的類別，按照少數服從多數的原則進行**，因此這個方法不像之前的感知機演算法那樣具有顯式的學習過程。k鄰近法實際上利用訓練資料對特徵向量空間進行劃分，並作為其分類的「模型」。k值的選擇、距離度量及分類決策規則是k鄰近法的三個基本要素。

筆記同書，先介紹k鄰近演算法，然後討論k鄰近法的模型及三個基本要素，最後是這個演算法的乙個實現方法——kd樹。

上文已經簡要介紹了k臨近演算法的過程，即對乙個新的樣本，找到特徵空間中與其最近的k個樣本，這k個樣本多數屬於某個類，就把這個新的樣本也歸為這個類。

演算法1 （k鄰近法）

輸入：訓練資料集

其中為樣本的特徵向量，

為例項的類別，i=1,2,…,n；樣本特徵向量x（新樣本）；

輸出：樣本x所屬的類y。

（1）根據給定的距離度量，在訓練集t中找出與x最相鄰的k個點，涵蓋這k個點的鄰域記作

；（2）在

中根據分類決策規則（如多數表決）決定x的類別y：

（1）式中i為指示函式，即當

時i為1，否則為0。

由這個簡單的演算法過程可以看出來，距離的選擇、以及k的選擇都是很重要的，這恰好對應的三個要素中的兩個，另乙個為分類決策規則，一般來說是多數表決法。

（未完待續……）

《統計學習方法》讀書筆記 K鄰近法

《統計學習方法》讀書筆記 K近鄰法（KNN）

統計學習方法讀書筆記（三）k近鄰法

統計學習方法讀書筆記（三） k近鄰法

《統計學習方法》讀書筆記 K鄰近法

《統計學習方法》讀書筆記 K近鄰法（KNN）

統計學習方法讀書筆記 （三）k近鄰法

統計學習方法讀書筆記（三） k近鄰法

相關推薦

統計學習方法讀書筆記（三）k近鄰法