決策樹學習

2021-07-30 13:42:02 字數 1116 閱讀 4639

決策樹是以例項為基礎的歸納學習。該類方法從一類無序,無規則的事物中推理出決策樹表示的分類規則。不論哪種決策樹學習演算法,其基本思想是一致的,即以資訊熵為度量構造一棵

熵值下降最快的樹,到葉子節點處的熵值為零。此時每個葉子結點的例項都屬於同一類。

決策樹學習採用自頂向下的遞迴方法,決策樹的每一層結點依靠某一屬性值向下分為子結點,待分類的例項在每一結點處與該結點相關的屬性值進行比較,根據不同的比較結果向相應的子結點進行擴充套件。這一過程在決策樹的葉結點時結束,此時得到結論。

決策樹從根結點到葉結點的每一條路徑都對應著一條合理的規則,規則各個部分(各個層)的關係是合取關係。整個決策樹對應著一組析取規則。決策樹演算法的

優點:它可以自學習,不需要使用者了解過多的背景知識。只需要對訓練例子進行較好的標註,就能進行學習。如果在應用中發現不符合規則的例項,程式會詢問使用者改例項的正確分類,從而生成新的分支和葉子。並新增到樹中。

決策樹是由結點和分支組成的層次資料結構。結點用於儲存資訊或知識。分支用於連線各個結點。從上端的根結點開始,各種分類原則被引用近來,並依靠這些分類原則將根結點資料集劃分為子集,這一劃分過程指導某種約束調節滿足而結束。

例項:每個結點代表乙個動物分類。根結點包含所有動物。每個非葉子結點包含一些分支,分別對應動物的某一屬性的取值。如:身材大小,叫聲等。

形式化表示:個子大 and(合取) 脖子短 and鼻子長 推出(符號不好打出來。。)可能是大象

構造一棵決策樹需要解決4個問題:

1)收集待分類的資料,這些資料的所有屬性應該是完全標註的。

2)設計分類原則,即資料的哪些屬性可以用來分類。以及如何進行該屬性的量化。

3)分類原則的選擇。在眾多的分類準則中,每一步選擇哪一準則使最終的樹更令人滿意。

4)設計分類停止調節,實際應用中,資料的屬性很多,真正有分類意義的屬性往往是有限的幾個。因此在必要的時候應該停止資料集的**,相應的準則包括:

a 該結點包含的資料太少不足以**;

b 繼續**資料集對樹的生成的目標沒有貢獻。

c 樹的深度過大不宜再分。

通用決策樹的**目標是整棵樹的熵總量最小,每一步**時,選擇使熵減小最大的準則,這種方案使最具有**潛力的準則被優先提取出來。

決策樹#c120082

決策樹的純度計算,演算法優化等:

決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。決策樹通過把例項從艮節點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每乙個結點指定了對例項的某個屬性的測試,並且該結點的每乙個後繼分支對應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開...

決策樹學習

決策樹是一種在機器學習中常見的學習演算法。決策樹是一種基於樹結構來進行決策分類和回歸的,在每一步的決策過程中根據屬性值來進行劃分,決策過程中提出的每個判定問題就是對某乙個屬性的測試。一般的,乙個決策樹通常包含乙個根節點,若干的葉子節點和內部節點,葉子節點對應於最後的決策結果,其他每一節點對應於每乙個...

決策樹學習

在學習決策樹學習之前,我想先問問幾個問題,以便好好梳理思路。1.決策樹是什麼?幹啥用的?決策樹學習又是什麼?2.資訊增益,純度,熵是什麼?在決策樹中是幹啥用的?3.構建乙個決策樹包含哪幾個步驟?如何構建?回答 2.熵表示乙個系統的無序程度,熵將小表示系統趨於有序。資訊增益表示在劃分資料之前之後資訊發...