決策樹學習

決策樹是以例項為基礎的歸納學習。該類方法從一類無序，無規則的事物中推理出決策樹表示的分類規則。不論哪種決策樹學習演算法，其基本思想是一致的，即以資訊熵為度量構造一棵

熵值下降最快的樹，到葉子節點處的熵值為零。此時每個葉子結點的例項都屬於同一類。

決策樹學習採用自頂向下的遞迴方法，決策樹的每一層結點依靠某一屬性值向下分為子結點，待分類的例項在每一結點處與該結點相關的屬性值進行比較，根據不同的比較結果向相應的子結點進行擴充套件。這一過程在決策樹的葉結點時結束，此時得到結論。

決策樹從根結點到葉結點的每一條路徑都對應著一條合理的規則，規則各個部分（各個層）的關係是合取關係。整個決策樹對應著一組析取規則。決策樹演算法的

優點：它可以自學習，不需要使用者了解過多的背景知識。只需要對訓練例子進行較好的標註，就能進行學習。如果在應用中發現不符合規則的例項，程式會詢問使用者改例項的正確分類，從而生成新的分支和葉子。並新增到樹中。

決策樹是由結點和分支組成的層次資料結構。結點用於儲存資訊或知識。分支用於連線各個結點。從上端的根結點開始，各種分類原則被引用近來，並依靠這些分類原則將根結點資料集劃分為子集，這一劃分過程指導某種約束調節滿足而結束。

例項：每個結點代表乙個動物分類。根結點包含所有動物。每個非葉子結點包含一些分支，分別對應動物的某一屬性的取值。如：身材大小，叫聲等。

形式化表示：個子大 and（合取）脖子短 and鼻子長推出（符號不好打出來。。）可能是大象

構造一棵決策樹需要解決4個問題：

1）收集待分類的資料，這些資料的所有屬性應該是完全標註的。

2）設計分類原則，即資料的哪些屬性可以用來分類。以及如何進行該屬性的量化。

3）分類原則的選擇。在眾多的分類準則中，每一步選擇哪一準則使最終的樹更令人滿意。

4）設計分類停止調節，實際應用中，資料的屬性很多，真正有分類意義的屬性往往是有限的幾個。因此在必要的時候應該停止資料集的**，相應的準則包括：

a 該結點包含的資料太少不足以**；

b 繼續**資料集對樹的生成的目標沒有貢獻。

c 樹的深度過大不宜再分。

通用決策樹的**目標是整棵樹的熵總量最小，每一步**時，選擇使熵減小最大的準則，這種方案使最具有**潛力的準則被優先提取出來。

決策樹#c120082

決策樹的純度計算，演算法優化等：