周志華《機器學習》決策樹

2021-10-21 18:32:53 字數 636 閱讀 5486

可採用二分法，對樣例在該屬性上的m個取值，取其m-1個間隔中的數作為閾值對樣例進行二分類，選擇最優的劃分點的資訊增益，作為該屬性在該節點進行劃分的資訊增益

注意，其他非連續屬性在某節點使用過後，在其子節點將不能再被用作劃分屬性，但是連續值因為其每次只選擇乙個二分點，所以在使用過後，後續子節點可以繼續使用該屬性進行劃分

根據不缺失該屬性的樣本計算在子節點和父節點間的資訊增益，和其他屬性對比資訊增益時，缺失屬性的資訊增益需要乘以乙個小於一的係數，這個係數是無缺失值樣本佔總樣本的比例。

若確定根據缺失屬性進行分類，則該屬性不缺失的樣例按照屬性值分入對應節點，缺失的樣本放入全部子節點中，但其權重x相應減少。即每乙個樣例在根節點權重都是1，如果根據了缺失屬性進行劃分，因為該樣例在這個屬性上沒有值，無法確定其屬於哪乙個節點，因此要放入每乙個節點中。具體的權重變化規則是：

假設有4個樣例，在父節點中的權重都是1。其中1，2，3樣例的屬性值分別是a，a，b，樣例4屬性值缺失。按照屬性分類後，1,2樣例進入a節點，3樣例進入b節點，4樣例同時進入a和b節點，且在a和b節點中的權重變為2/3和1/3（分別是不缺失樣例進入節點a的比例和不缺失樣例進入節點b的比例）

機器學習決策樹

一基本概念決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構，在分類問題中，表示屬於特徵對例項進行分類的過程，它可以認為是if then規則的集合，也可以認為是電議在特徵空間與類空空上的條件概率分布，其主要優點是模型具有可讀性，分類速度快。決策樹的學習通常包括3...

機器學習決策樹

我覺得決策樹是機器學習所有演算法中最可愛的了沒有那麼多複雜的數學公式哈哈下圖是一棵決策樹，用來判斷西瓜是好瓜還是壞瓜決策過程中提出的每個判定問題都是都對某個屬性的測試，每個測試結果要麼推導出最終結論，要麼匯出進一步判斷的問題，在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出，葉節點對應決...

機器學習決策樹

一演算法簡介決策樹一般都是自上而下來生成的，每個決策後事件即自然狀態都可能引出兩個或多個事件，導致結果的不同，把這種結構分支畫成形狀很像一棵樹的枝幹，故稱為決策樹。決策樹能夠讀取資料集合，並且決策樹很多任務都是為了資料中所蘊含的知識資訊，因此決策樹可以使用不熟悉的資料集合，並從中提取一系列規...