KNN演算法優缺點總結,以及機器學習流程的總結

2021-08-25 19:27:44 字數 746 閱讀 8930

knn演算法作為乙個最簡單,也是乙個很實用的機器學習的演算法,日常的使用中也能處理很多問題,這裡做一下總結記錄

優點1、knn可以處理分類問題,同時天然可以處理多分類問題,比如鳶尾花的分類

2、簡單,易懂,同時也很強大,對於手寫數字的識別,鳶尾花這一類問題來說,準確率很高

3、knn還可以處理回歸問題,也就是**

缺點1、效率低,因為每一次分類或者回歸,都要把訓練資料和測試資料都算一遍,如果資料量很大的話,需要的算力會很驚人,但是在機器學習中,大資料處理又是很常見的一件事

2、對訓練資料依賴度特別大,雖然所有機器學習的演算法對資料的依賴度很高,但是knn尤其嚴重,因為如果我們的訓練資料集中,有一兩個資料是錯誤的,剛剛好又在我們需要分類的數值的旁邊,這樣就會直接導致**的資料的不準確,對訓練資料的容錯性太差

3、維數災難,knn對於多維度的資料處理也不是很好,如下圖

因為距離會越來越大,那麼就會越來越「不像」,而對於knn這種高度依賴距離的演算法來說,這個也會影響準確率的

機器學習具體實踐的整個流程

形象一點的流程圖

knn演算法思想和優缺點

knn演算法的描述 1 計算測試資料與各個訓練資料之間的距離 2 按照距離的遞增關係進行排序 3 選取距離最小的k個點 4 確定前k個點所在類別的出現頻率 5 返回前k個點 現頻率最高的類別作為測試資料的 分類。演算法優點 1 簡單,易於理解,易於實現,1 knn可以處理分類問題,同時天然可以處理多...

KNN演算法,K聚類的優缺點

適用資料範圍 數值型和標稱型 目標變數的結果只在有限目標集中取值,如真與假,標稱型目標變數主要用於分類 優點 簡單,易於理解,易於實現,無需引數估計,無需訓練 對異常值不敏感 個別噪音資料對結果的影響不是很大 適合對稀有事件進行分類 適合於多分類問題 multi modal,物件具有多個類別標籤 k...

聚類演算法優缺點總結

聚類演算法優缺點總結 k均值演算法 二分k 均值演算法 min單鏈凝聚層次聚類 max全鏈凝聚層次聚類 組平均凝聚層次聚類 ward方法 質心方法 lance williams公式 dbscan密度聚類 資料具有大小很不同的簇 高維資料 具有離群點的資料 具有高度不規則區域的資料 具有球形簇的資料 ...