機器學習面試題之KNN

1. 簡述一下knn演算法的原理

knn演算法利用訓練資料集對特徵向量空間進行劃分。knn演算法的核心思想是在乙個含未知樣本的空間，可以根據樣本最近的k個樣本的資料型別來確定未知樣本的資料型別。

該演算法涉及的3個主要因素是：k值選擇，距離度量，分類決策。

2. 如何理解knn中的k的取值？

選取較小的k值時，相當於用較小的領域中的訓練例項進行**，「學習」近似誤差會減小，只有與輸入例項很相近的樣本才會對**結果起作用。但是，「學習」的估計誤差會增大，**結果會對近鄰的例項點非常敏感。如果鄰近的例項點恰好是雜訊，**就會出錯。換句話說，k值的減小就意味著整體模型會變得複雜，容易過擬合。

選取較大的k值是，相當於用較大的領域中的訓練例項進行**，其優點是可以減少學習的估計誤差。但缺點是學習的近似誤差會增大，這時與輸入例項較遠的樣本也對**結果起作用，容易使**發生錯誤。k值的增大就意味著整體的模型變得簡單。

在應用中，k值一般取比較小的值，並採用交叉驗證法進行調優。

3. 在knn的樣本搜尋中，如何進行高效的匹配查詢？

線性掃瞄(資料多時，效率低)

4. knn演算法有哪些優點和缺點？

優點：演算法思想較簡單，既可以做分類也可以做回歸；可以用於非線性分類/回歸；訓練時間複雜度為o(n)；準確率高，對資料沒有假設，對離群點不敏感。

缺點：計算量大；存在類別不平衡問題；需要大量的記憶體，空間複雜度高。

5. 不平衡的樣本可以給knn的**結果造成哪些問題，有沒有什麼好的解決方式？

輸入例項的k鄰近點中，大數量類別的點會比較多，但其實可能都離例項較遠，這樣會影響最後的分類。

可以使用權值來改進，距例項較近的點賦予較高的權值，較遠的賦予較低的權值。

6. 為了解決knn演算法計算量過大的問題，可以使用分組的方式進行計算，簡述一下該方式的原理。

先將樣本按距離分解成組，獲得質心，然後計算未知樣本到各質心的距離，選出距離最近的一組或幾組，再在這些組內引用knn。本質上就是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本，該方法比較適用於樣本容量比較大時的情況。

7. 什麼是歐氏距離和曼哈頓距離？

歐氏距離就是常用的平方差求和再開方；曼哈頓距離是座標差的絕對值求和。

8. 那什麼是kd樹？怎麼構建的？

kd樹是對資料點在k維空間中劃分的一種資料結構，主要用於多維空間關鍵資料的搜尋。本質上，kd樹就是一種平衡二叉樹。

9. kd樹建立過程中切分維度的順序是否可以優化？

先對各個維度計算方差，選取最大方差的維度作為候選劃分維度(方差越大，表示此維度上資料越分散)；對split維度上的值進行排序，選取中間的點為node-data；按照split維度的node-data對空間進行一次劃分；對上述子空間遞迴以上操作，直到空間只包含乙個資料點。分而治之，且迴圈選取座標軸。從方差大的維度來逐步切分，可以取得更好的切分效果及樹的平衡性。

10. kd樹每一次繼續切分都要計算該子區間在需切分維度上的中值，計算量很大,有什麼方法可以對其進行優化？

在構建kd樹前，依據每一維度先排序，在之後的切分中直接使用。

11. 能簡單介紹一下kd樹的查詢，以及增、刪、改的實現流程嗎？

先二叉查詢，找到候選最近點；沿著路徑進行回溯，畫圓，是否父節點平面交割，以判斷是否需要進入另乙個平面進行查詢；依次回溯，畫圓，尋找最近點。

kd樹更適合用於訓練例項數遠大於空間維數時的k近鄰搜尋。當維數超過20維時，kd數的檢索效率急劇下降，幾乎接近貪婪的線性掃瞄。因此出現對kd樹的改進——bbf演算法，m樹，vp樹，mvp樹等高維空間索引樹。（要以後了解一下這些高維索引樹）

12. 能否大幅減少訓練樣本量，同時又保持分類精度？

濃縮技術(condensing)、編輯技術(editing)

13. k-means與knn有什麼區別

k-means是聚類演算法，knn用來分類和回歸。

機器學習面試題之KNN

機器學習面試題之KNN（六）

機器學習面試題

機器學習面試題之線性回歸

機器學習面試題之KNN

機器學習面試題之KNN（六）

機器學習面試題

機器學習面試題之線性回歸

相關推薦