Chapter 3 決策樹學習

2021-08-08 15:51:46 字數 1348 閱讀 7449

決策樹學習是一種逼近離散值目標函式的方法,對雜訊資料有很好的魯棒性且能夠學習析取表示式。在這種方法中學習到的函式被表示為一棵決策樹,它最合適具有以下特徵的問題:

主要思想:通過自頂向下構造決策樹來進行學習。使用統計測試來確定每乙個例項屬性單獨分類訓練樣例的能力,分類能力最好的屬性選作樹的根節點的測試。然後,以根節點屬性的每個可能值產生乙個分支,並把訓練樣例排列到適當的分支。重複整個過程,用每個分支節點關聯的訓練樣例來選取在該點被測試的最佳屬性。這形成了對合格決策樹的貪婪搜尋(greedy search)。

資訊增益(information gain)— 衡量屬性價值的定量標準

其中,sv=

。 3. 優勢與不足:

通過觀察id3的搜尋空間和搜尋策略,可知,

* 假設空間包含所有的決策樹,避免了搜尋不完整的假設空間;

* 僅維護單一的當前假設,失去了表示所有一致假設所帶來的優勢;

* 搜尋中不進行回溯,易收斂到區域性最優;

* 每一步搜尋都使用當前所有訓練樣例,大大降低了對個別訓練樣例錯誤的敏感性。

4. 決策樹學習的歸納偏置

近似的id3演算法的歸納偏置:較短的樹比較長的樹優先;高資訊增益的屬性更靠近根節點的樹優

id3演算法與candidate-elimination演算法的歸納偏置的差異:

* id3的搜尋範圍是乙個完整的假設空間,但它不徹底地搜尋這個空間;

* candidate-elimination演算法的搜尋範圍是不完整的假設空間,但它徹底地搜尋這個空間;

* id3的歸納偏置來自它的搜尋策略,candidata-elimination演算法的歸納偏置來自於它對搜尋空間的定義。

5. 優選偏置和限定偏置

* 優選偏置(搜素偏置):對某種假設勝過其他假設的一種優選,對最終可列舉的假設沒有硬性限制。如id3演算法。

* 限定偏置(語言偏置):對待考慮的假設有一種限定。如candidate-elimination演算法。

通常,優選偏置比限定偏置更符合需要,因為它允許學習器工作在完整的假設空間上,保證了未知的目標函式被包含在內。一些學習系統同時包含二者,如使用lms演算法的線性回歸,線性函式引入了限定偏置,lms演算法引入了優先偏置(所有可能引數值空間上的順序搜尋)。

著名的歸納偏置——奧坎姆剃刀:優先選擇擬合資料的最簡單的假設。

過度擬合(overfit):給定乙個假設空間

h ,乙個假設 h∈

h,如果存在其他的假設 h′

∈h,使得在訓練樣例上

h 的錯誤率比 h′

小,但在整個例項分布上 h′

的錯誤率比

h 小,那麼就說假設

h過度擬合訓練資料。

過度擬合產生的原因:

決策樹 ID3構建決策樹

coding utf 8 from math import log import operator 建立訓練資料集 defcreatedataset dataset 1,1,yes 1,1,yes 1,0,no 0,1,no 0,1,no 資料集的最後乙個元素作為該資料的標籤,是否是魚 labels...

決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這種方法中學習到的函式被表示為一棵決策樹。決策樹通過把例項從艮節點排列到某個葉子結點來分類例項,葉子結點即為例項所屬的分類。樹上的每乙個結點指定了對例項的某個屬性的測試,並且該結點的每乙個後繼分支對應於該屬性的乙個可能值。分類例項的方法是從這棵樹的根節點開...

決策樹學習

決策樹是一種在機器學習中常見的學習演算法。決策樹是一種基於樹結構來進行決策分類和回歸的,在每一步的決策過程中根據屬性值來進行劃分,決策過程中提出的每個判定問題就是對某乙個屬性的測試。一般的,乙個決策樹通常包含乙個根節點,若干的葉子節點和內部節點,葉子節點對應於最後的決策結果,其他每一節點對應於每乙個...