機器學習之決策樹演算法概念和學習過程

1. 概念

決策樹是通過一系列規則對資料進行分類的過程，它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和回歸樹兩種，分類樹對離散變數做決策樹，回歸樹對連續變數做決策樹。

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部節點和葉節點，內部節點表示乙個特徵或屬性，葉節點表示乙個類。

直**上去，決策樹分類器就像判斷模組和終止塊組成的流程圖，終止塊表示分類結果（也就是樹的葉子）。判斷模組表示對乙個特徵取值的判斷（該特徵有幾個值，判斷模組就有幾個分支）。

引用網上的乙個栗子：

母親：給你介紹個物件。

女兒：年紀多大了？

母親：26

。女兒：長的帥不帥？

母親：挺帥的。

女兒：收入高不？

母親：不算很高，中等情況。

女兒：是公務員不？

母親：是，在稅務局上班呢。

女兒：那好，我去見見。

用決策樹來表示：

作為乙個碼農經常會不停的敲if, else if, else,其實就已經在用到決策樹的思想了。只是你有沒有想過，有這麼多條件，用哪個條件特徵先做if，哪個條件特徵後做if比較優呢？怎麼準確的定量選擇這個標準就是決策樹機器學習演算法的關鍵了。

2. 決策樹的學習過程

一棵決策樹的生成過程主要分為以下3個部分:

特徵選擇：

特徵選擇是指從訓練資料中眾多的特徵中選擇乙個特徵作為當前節點的**標準，如何選擇特徵有著很多不同量化評估標準標準，從而衍生出不同的決策樹演算法。

1、為什麼要做特徵選擇

在有限的樣本數目下，用大量的特徵來設計分類器計算開銷太大而且分類效能差。

2、特徵選擇的確切含義

將高維空間的樣本通過對映或者是變換的方式轉換到低維空間，達到降維的目的，然後通過特徵選取刪選掉冗餘和不相關的特徵來進一步降維。

3、特徵選取的原則

獲取盡可能小的特徵子集，不顯著降低分類精度、不影響類分布以及特徵子集應具有穩定適應性強等特點

決策樹生成：

根據選擇的特徵評估標準，從上至下遞迴地生成子節點，直到資料集不可分則停止決策樹停止生長。樹結構來說，遞迴結構是最容易理解的方式。

剪枝：

由於決策樹演算法的特性，容易使得對特徵的學習過度細分，從而出現分類不准的情況，比如，把某乙個特殊特特徵當做類別的判斷標準，從而把不具有某特殊屬性的資料劃分到此類別之外。這種情況叫過擬合，英文叫overfitting直譯就是過度匹配，也就是匹配太細化，有點過了。要解決這個問題，就要把決策樹進行簡化，把一些太細化的特性去掉，反應在樹形結構上就是去掉一些分支，術語叫剪枝。剪枝技術有預剪枝和後剪枝兩種。

機器學習之決策樹演算法概念和學習過程

機器學習演算法之決策樹

機器學習之決策樹演算法

機器學習演算法決策樹

機器學習之決策樹演算法 概念和學習過程

機器學習演算法之決策樹

機器學習之決策樹演算法

機器學習演算法 決策樹

相關推薦

機器學習之決策樹演算法概念和學習過程

機器學習演算法決策樹