《統計學習方法》筆記（3） k近鄰

k近鄰（knn）是相對基本的機器學習方法，特點是不需要建立模型，而是直接根據訓練樣本的資料對測試樣本進行分類。

1、k近鄰的演算法？

演算法對測試樣本進行分類的一般過程如下：

1）根據給定的k值，搜尋與測試樣本距離最近的k個訓練樣本；

2）統計k個樣本對應的每種分類數量；

3）根據每種分類的數量投票決定樣本點所屬分類，票數多者得。

例如：對於二分類，採用k=5的k近鄰演算法進行分類：距離樣本點最近的5個點中，屬於類0的樣本數量為2，屬於類1的樣本數量為3，最終判定樣本點屬於類1。

2、k近鄰的三要素？

k值、距離計算方法和投票規則是共同決定k近鄰演算法的三要素。

1）k值前面演算法中已經介紹過了，是人為設定的值；根據這個設定的k值，選定距離樣本點最近的訓練樣本。

2）距離計算方法一般採用歐氏距離，也可採用更加一般的lp距離。

舉例來說：向量x1=(1,2)和x2=(3,4)均為2維特徵向量，歐氏距離為

3）投票規則一般採用票數多者得的原則。

3、快速對樣本進行分類的方法？

k近鄰演算法的核心是快速的搜尋到距離最近的樣本點。對於樣本量n很大的資料集，如果採用線性搜尋方法，因為需要遍歷樣本中的每乙個點，速度會非常慢。

為此常採用kd樹結構來儲存原始資料，kd樹其實是二叉搜尋樹，對於樹中的每乙個節點，其左子節點（left節點）都小於自身，右子節點（right節點）都大於自身。採用該資料結構進行樣本搜尋時，每次可以排除掉剩餘節點中半數（並非嚴格的半數）的節點，速度會快得多，時間複雜度是o(logn)。

統計學習方法 3K近鄰法

1968年由cover和hart提出。k近鄰法假設給定乙個訓練資料集，其中的例項類別已定。分類時，對新的例項，根據其k個最近鄰的訓練例項的類別，通過多數表決等方式進行 k近鄰法實際上利用訓練資料集對特徵向量空間進行劃分，並作為其分類的模型 k近鄰法三要素 k值得選擇距離度量和分類決策規則。lp距...

機器學習統計學習方法 3 k近鄰法筆記

注本章只介紹分類問題的k近鄰演算法。t t t 其中，xi x rn x i in mathcal subset r n xi x rn為例項的特徵變數，yi y y i in mathcal yi y 為例項的類別，i 1 2,3 n i 1,2,3,n i 1,2,3,n 例項特徵變數 xxx...

統計學習方法筆記 K近鄰法

看完了knn演算法，感覺演算法挺簡單的，選擇k的大小，距離計算公式，分類決策三個部分就行了，並且三個部分用的東西都挺常見，沒什麼難度。後面的提到了乙個改進演算法，搜尋空間kd演算法，這樣可以幫助我們很快的找到k個最近鄰，運用中位數縮小搜尋空間，省去了對大部分資料點的搜尋。思想不難 k近鄰法是一種基本...

《統計學習方法》筆記（3） k近鄰

統計學習方法 3K近鄰法

機器學習 統計學習方法 3 k近鄰法 筆記

統計學習方法筆記 K近鄰法

相關推薦

機器學習統計學習方法 3 k近鄰法筆記