knn演算法與決策樹

knn演算法是機器學習中一種基礎的演算法，原理非常簡單，通過計算新資料與訓練特徵值之間的距離，然後選取k個距離最近的鄰居進行分類判斷，這k個例項的多數屬於某個類別，則該輸入例項就劃分到這個類別。

當然，k的取值要合適，如果k的取值過小，那麼**結果會對近鄰的例項點非常敏感，如果近鄰的例項點正好有雜訊，那麼**就會發生錯誤；但k的取值也不能過大，如果過大，**結果將變成乙個常量，完全忽略了訓練例項中大量有用的資訊。

對於距離的度量方式,我們可以採用的方式有很多，最常用的是歐式距離，計算公式為

我們也可以採用曼哈頓距離，計算公式為

決策樹是一種有監督學習的演算法，決策樹是根據一系列的規則進行分類，其本質是一連串的if-else語句。

決策樹主要由三部分構成:決策節點，分支，葉子節點。每個決策節點都代表乙個待分類的屬性或類別，決策節點下面是多個分支，每個分支都分出乙個葉子節點，每乙個葉子節點都代表乙個結果。

實現決策樹的演算法有id3演算法和c4.5演算法

id3演算法

id3演算法是以資訊理論為基礎，以資訊熵和資訊增益為衡量標準，從而實現對資料的歸納分類。它是建立在奧卡姆剃刀的基礎上：越是小型的決策樹越優於大的決策樹。

如何確定分類的準則呢?這裡就要引出資訊熵了，我們分別計算出不同準則下的資訊增益量，即每種準則下的資訊熵的數學期望，資訊增益量最大的即為最優準則。

除此之外，我們還要進行剪枝。剪枝分為預剪枝和後剪枝。預剪枝是先計算資訊增益再決定要不要分節點。後剪枝是先構建一棵完整的資訊樹再計算資訊增益進行剪枝。後剪枝決策樹通常比預剪枝決策樹保留了更多的分支，一般情形下，後剪枝決策樹的欠擬合風險小，效能往往也要優於預剪枝決策樹。但後剪枝過程是在構建完全決策樹之後進行的，並且要自底向上的對樹中的所有非葉結點進行逐一考察，因此其訓練時間開銷要比未剪枝決策樹和預剪枝決策樹都大得多。

c4.5演算法

c4.5演算法與id3演算法相比，做了如下幾方面的改進：

1 用資訊增益率來選擇屬性，克服了用資訊增益選擇屬性時取值多的不足。

2 在樹構造過程中剪枝。

3 能夠完成對連續屬性的離散化處理。

4 能夠對不完整的資料進行處理。

c4.5演算法的優點：產生的分類規則易於理解，準確率較高。缺點：c4.5演算法只適合能夠駐留於記憶體的資料集，當訓練集大到無法在記憶體容納時程式無法執行。

c4.5演算法與id3演算法只有樹的生成演算法，生成的樹容易產生過擬合：對訓練集匹配很好，但是**測試集效果較差。

knn演算法與決策樹

決策樹演算法

決策樹演算法

決策樹演算法

knn演算法與決策樹

決策樹演算法

決策樹演算法

決策樹演算法

相關推薦