《統計學習方法》筆記(3) k近鄰

2021-07-10 21:21:29 字數 820 閱讀 9878

k近鄰(knn)是相對基本的機器學習方法,特點是不需要建立模型,而是直接根據訓練樣本的資料對測試樣本進行分類。

1、k近鄰的演算法?

演算法對測試樣本進行分類的一般過程如下:

1)根據給定的k值,搜尋與測試樣本距離最近的k個訓練樣本;

2)統計k個樣本對應的每種分類數量;

3)根據每種分類的數量投票決定樣本點所屬分類,票數多者得。

例如:對於二分類,採用k=5的k近鄰演算法進行分類:距離樣本點最近的5個點中,屬於類0的樣本數量為2,屬於類1的樣本數量為3,最終判定樣本點屬於類1。

2、k近鄰的三要素?

k值、距離計算方法和投票規則是共同決定k近鄰演算法的三要素。

1)k值前面演算法中已經介紹過了,是人為設定的值;根據這個設定的k值,選定距離樣本點最近的訓練樣本。

2)距離計算方法一般採用歐氏距離,也可採用更加一般的lp距離。

舉例來說:向量x1=(1,2)和x2=(3,4)均為2維特徵向量,歐氏距離為

3)投票規則一般採用票數多者得的原則。

3、快速對樣本進行分類的方法?

k近鄰演算法的核心是快速的搜尋到距離最近的樣本點。對於樣本量n很大的資料集,如果採用線性搜尋方法,因為需要遍歷樣本中的每乙個點,速度會非常慢。

為此常採用kd樹結構來儲存原始資料,kd樹其實是二叉搜尋樹,對於樹中的每乙個節點,其左子節點(left節點)都小於自身,右子節點(right節點)都大於自身。採用該資料結構進行樣本搜尋時,每次可以排除掉剩餘節點中半數(並非嚴格的半數)的節點,速度會快得多,時間複雜度是o(logn)。

統計學習方法 3K近鄰法

1968年由cover和hart提出。k近鄰法假設給定乙個訓練資料集,其中的例項類別已定。分類時,對新的例項,根據其k個最近鄰的訓練例項的類別,通過多數表決等方式進行 k近鄰法實際上利用訓練資料集對特徵向量空間進行劃分,並作為其分類的 模型 k近鄰法三要素 k值得選擇 距離度量和分類決策規則。lp距...

機器學習 統計學習方法 3 k近鄰法 筆記

注 本章只介紹分類問題的k近鄰演算法。t t t 其中,xi x rn x i in mathcal subset r n xi x rn為例項的特徵變數,yi y y i in mathcal yi y 為例項的類別,i 1 2,3 n i 1,2,3,n i 1,2,3,n 例項特徵變數 xxx...

統計學習方法筆記 K近鄰法

看完了knn演算法,感覺演算法挺簡單的,選擇k的大小,距離計算公式,分類決策三個部分就行了,並且三個部分用的東西都挺常見,沒什麼難度。後面的提到了乙個改進演算法,搜尋空間kd演算法,這樣可以幫助我們很快的找到k個最近鄰,運用中位數縮小搜尋空間,省去了對大部分資料點的搜尋。思想不難 k近鄰法是一種基本...