決策樹詳解（三）

訓練決策樹有三個關鍵問題：

為了避免這種情況的出現，我們設定先驗概率（例如根據今天的天氣，來**明天的天氣），異常出現的情況，我們人為進行增加，這樣決策樹就會被適當的增加。

設qj為設定的第j個先驗概率，nj為該分類的樣本數，則考慮了樣本率並進行歸一化處理的先驗概率qj為：

把先驗概率帶入到

可以得到：

下面說一下第三種方法：

尋找替代分叉屬性總的原則就是使其分叉的效果與最佳分叉屬性相似，即分叉的誤差最小。

根據特徵屬性是類還是數值的形式，把替代分叉屬性的計算為分兩種情況。

當特徵屬性是類的形式的時候，且當最佳分叉屬性不是該特徵屬性時，會把該特徵屬性的每個種類分叉為不同的分支。這句話比較拗口，其意思是說：你在約妹子的時候，該特徵屬性是你想約妹子的決心，最佳分叉屬性是你兜裡有多少錢。這兩種屬性，乙個是類，乙個是數值。我們就把約妹子的決心分成不同分支，如十分想約的4個分成不同分支（3個屬於左分支，1個屬於右分支）。

但當最佳分叉屬性是決心時，這種情況不會發生了。也就是說，十分想的這個分類，要麼4個都在左分支，要麼都在右分支。

因此我們把被最佳分叉屬性分叉的特徵屬性種類的分支最大樣本數量作為該種類的分叉值，計算該特徵屬性所有種類的這些分叉值，最終這些分叉值之和就作為該替代分叉屬性的分叉值。

當特徵屬性是數值的形式的時候，樣本被分割成了四個部分：ll、lr、rl和rr，前乙個字母表示被最佳分叉屬性分叉為左右分支，後乙個字母表示被替代分叉屬性分叉為左右分支，如lr表示被最佳分叉屬性分叉為左分支，但被替代分叉屬性分叉為右分支的樣本，因此ll和rr表示的是被替代分叉屬性分叉正確的樣本，而lr和rl是被替代分叉屬性分叉錯誤的樣本，在該特徵屬性下，選取閾值對樣本進行分割，使ll+rr或lr+rl達到最大值，則最終max作為該特徵屬性的替代分叉屬性的分叉值。按照該方法再計算其他特徵屬性是數值形式的替代分叉值，則替代性也由替代分叉值按從大到小進行排序。最終我們選取替代分叉值最大的那個特徵屬性作為該最佳分叉屬性的替代分叉屬性。

為了讓替代分叉屬性與最佳分叉屬性相比較，我們還需要對替代分叉值進行規範化處理，如果替代分叉屬性是類的形式，則替代分叉值需要乘以式12再除以最佳分叉屬性中的種類數量，如果替代分叉屬性是數值的形式，則替代分叉值需要乘以式19再除以所有樣本的數量。規範化後的替代分叉屬性如果就是最佳分叉屬性時，兩者的值是相等的。

決策樹的建立完全依賴於訓練樣本，因此該決策樹對該樣本能夠產生完全一致的擬合效果。但這樣的決策樹對於**樣本來說過於複雜，對**樣本的分類效果也不夠精確。這種現象被稱為過擬合。

決策樹詳解（三）

決策樹詳解

決策樹原理詳解

詳解決策樹

決策樹詳解（三）

決策樹詳解

決策樹原理詳解

詳解決策樹

相關推薦