機器學習實戰學習筆記（一） K 近鄰演算法

k-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。

存在乙個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後，將新資料的每個特徵和樣本集中資料對應的特徵進行比較，然後演算法提取樣本集中特徵最相似資料（最近鄰）的分類標籤。一般來說，我們只選擇樣本資料集中前k個最相似的資料，這就是k-近鄰演算法中k的出處，通常k是不大於20的整數。最後，選擇k個最相似資料中出現次數最多的分類，作為新資料的分類。

電影名稱

打鬥鏡頭

接吻鏡頭

電影型別（tag）

california man

3104

愛情片he is not really into dudes

2100

愛情片kevin longblade

10110

動作片

輸入一部電影a的資訊，我們不知道這部電影是愛情片還是動作片，那麼我們可以通過打鬥鏡頭和接吻鏡頭兩個特徵，算出電影a與已知電影型別資訊（樣本集）的距離，取出前k（不大於20）個距離最近的電影樣本，看看k個樣本中型別最多的，即是電影a的型別。

距離的演算法可以根據權重等，將特徵標註在座標中，比如打鬥鏡頭是y座標，接吻鏡頭是x座標，即可算出距離。

將手寫資料轉換成32*32畫素。0~9每個數有200個帶標籤的樣本，通過將手寫數的32*32畫素與2000個樣本比較，得出向量距離，取前k個，可以得出手寫數字的值。

略

機器學習實戰學習筆記（一） K 近鄰演算法

《機器學習實戰》學習筆記一 k 近鄰演算法（kNN）

機器學習實戰（一） K 近鄰演算法

機器學習實戰一 k 近鄰演算法

機器學習實戰學習筆記（一） K 近鄰演算法

《機器學習實戰》學習筆記一 k 近鄰演算法（kNN）

機器學習實戰（一） K 近鄰演算法

機器學習實戰 一 k 近鄰演算法

相關推薦

機器學習實戰一 k 近鄰演算法