基於kNN的文字分類原理以及實現

前兩天寫了基於libsvm中文文字分類，只是做到了會用的，要做到知其然知其所以然還是很難的。不過svm的應用很廣泛，除了文字分類，比如人臉識別，手寫識別，甚至驗證碼識別都可以搞定。

knn（k最鄰近）演算法相對而言，就簡單得多了。

1，knn演算法就是找到k個最相似的樣本，這些樣本所在的類，就是當前文件的所屬的類。如下圖：綠色圓圈表示你想分類的文字，其他是已知類別的樣本。圖中其他形狀和綠色圓圈的距離代表了相似度。如果k = 3，就是取3個最相似的文字，那麼1個藍色框，2紅色三角被選中，因為紅色三角多，則綠色圓圈所屬的類就是紅色三角所在的類。如果k = 5，3個藍色框和2個紅色三角選中，那麼就屬於藍色框所屬於的類。knn你也可以取多個類別，就是綠色圓圈既屬於藍色框，也屬於紅色三角所屬的類別。

2，如何計算文章的相似度？建議先看看《數學之美-餘弦定理和新聞分類》。首先必須對文件分詞，對於所有出現的詞叫做特徵。每個特徵必須有一定的值，這個值是根據某些公式計算出來的比如tf/idf。比如文件x表示為(f1:x1,f2:x2,......,fn:xn)文件y表示為(f1:y1,f2:y2,......,fn:yn)。

x1...xn以及y1...yn都是通過比如tf/idf公式計算出來的（你也可以用別的公式）。f1...fn就是特徵，如果特徵從0....n已經選擇好了，那麼fn可以省略，寫作x (x1,x2,......,xn)，y寫作(y1,y2,......,yn)。

如上圖，如果x和y的夾角小，則相似度高，夾角大，則相似度小，那麼計算余弦cos(xy)就可以，越接近1，越相似，還有一種方法時計算內積，就是夾角間的面積，有興趣的同學可以試試。計算cos的公式為：

上面公式很好理解，把資料的代入，就等同下面的公式：

3，第2步是計算兩個文字之間的相似度，剩下的計算很簡單，計算和所有樣本的相似度。然後根據sim的值按照從高到低排序。k 等於幾，就取前幾個。下面有是乙個公式，看起來很麻煩，理解很容易：就是k個鄰居中，屬於哪個類別的多，x就屬於哪個類。

4，實現。實現請參考基於libsvm中文文字分類中的，分詞部分，特徵提取部分，向量值計算部分，訓練樣本和測試樣本部分。knn的實現**如下：

5，總結。knn的分類方法因為沒有訓練過程，所以，分類時特別慢，因為需要和所有樣本進行比較，同時特徵維數很多，也要影響效率。分類準確度還可以，基本和沒有優化過的svm差不多，70%多。knn的準確度和樣本數量還是蠻相關的，我用每個類下的100個樣本和200個樣本，準確度差了9%左右。knn因為效率的問題，所以在實際中應用還需要慎重。

基於kNN的文字分類原理以及實現

python使用KNN文字分類

基於DL的文字分類綜述

機器學習1 KNN文字分類

基於kNN的文字分類原理以及實現

python使用KNN文字分類

基於DL的文字分類綜述

機器學習1 KNN文字分類

相關推薦