決策樹詳解(三)

2021-08-25 05:31:44 字數 1490 閱讀 9794

訓練決策樹有三個關鍵問題:

為了避免這種情況的出現,我們設定先驗概率(例如根據今天的天氣,來**明天的天氣),異常出現的情況,我們人為進行增加,這樣決策樹就會被適當的增加。

設qj為設定的第j個先驗概率,nj為該分類的樣本數,則考慮了樣本率並進行歸一化處理的先驗概率qj為:

把先驗概率帶入到

可以得到:

下面說一下第三種方法:

尋找替代分叉屬性總的原則就是使其分叉的效果與最佳分叉屬性相似,即分叉的誤差最小。

根據特徵屬性是類還是數值的形式,把替代分叉屬性的計算為分兩種情況。

當特徵屬性是類的形式的時候,且當最佳分叉屬性不是該特徵屬性時,會把該特徵屬性的每個種類分叉為不同的分支。這句話比較拗口,其意思是說:你在約妹子的時候,該特徵屬性是你想約妹子的決心,最佳分叉屬性是你兜裡有多少錢。這兩種屬性,乙個是類,乙個是數值。我們就把約妹子的決心分成不同分支,如十分想約的4個分成不同分支(3個屬於左分支,1個屬於右分支)。

但當最佳分叉屬性是決心時,這種情況不會發生了。也就是說,十分想的這個分類,要麼4個都在左分支,要麼都在右分支。

因此我們把最佳分叉屬性分叉的特徵屬性種類的分支最大樣本數量作為該種類的分叉值,計算該特徵屬性所有種類的這些分叉值,最終這些分叉值之和就作為該替代分叉屬性的分叉值。

當特徵屬性是數值的形式的時候,樣本被分割成了四個部分:ll、lr、rl和rr,前乙個字母表示被最佳分叉屬性分叉為左右分支,後乙個字母表示被替代分叉屬性分叉為左右分支,如lr表示被最佳分叉屬性分叉為左分支,但被替代分叉屬性分叉為右分支的樣本,因此ll和rr表示的是被替代分叉屬性分叉正確的樣本,而lr和rl是被替代分叉屬性分叉錯誤的樣本,在該特徵屬性下,選取閾值對樣本進行分割,使ll+rr或lr+rl達到最大值,則最終max作為該特徵屬性的替代分叉屬性的分叉值。按照該方法再計算其他特徵屬性是數值形式的替代分叉值,則替代性也由替代分叉值按從大到小進行排序。最終我們選取替代分叉值最大的那個特徵屬性作為該最佳分叉屬性的替代分叉屬性。

為了讓替代分叉屬性與最佳分叉屬性相比較,我們還需要對替代分叉值進行規範化處理,如果替代分叉屬性是類的形式,則替代分叉值需要乘以式12再除以最佳分叉屬性中的種類數量,如果替代分叉屬性是數值的形式,則替代分叉值需要乘以式19再除以所有樣本的數量。規範化後的替代分叉屬性如果就是最佳分叉屬性時,兩者的值是相等的。

決策樹的建立完全依賴於訓練樣本,因此該決策樹對該樣本能夠產生完全一致的擬合效果。但這樣的決策樹對於**樣本來說過於複雜,對**樣本的分類效果也不夠精確。這種現象被稱為過擬合。

決策樹詳解

一 原理 決策樹是一種非引數的監督學習方法,它主要用於分類和回歸。決策樹的目的是構造一種模型,使之能夠從樣本資料的特徵屬性中,通過學習簡單的決策規則 if then規則,從而 目標變數的值。圖1 決策樹 例如,在某醫院內,對因心臟病發作而入院 的患者,在住院的前24小時內,觀測記錄下來他們的19個特...

決策樹原理詳解

決策樹是機器學習中一種基本的分類和回歸演算法,是依託於策略抉擇而建立起來的樹。其主要優點是模型具有可讀性,分類速度快,易於理解。決策樹的思想主要 於quinlan在1986年提出的id3演算法和1993年提出的c4.5演算法,以及有breiman等人在1984年提出的cart演算法。1.什麼是決策樹...

詳解決策樹

本科人工智慧和研究生的高階人工智慧課中都學習到了決策樹,現在再來根據西瓜書中的內容詳細的總結一下。決策樹學習的目的是為了產生一顆泛化能力強,即處理未見示例能力強的決策樹,其基本流程遵循簡單且直觀的 分而治之 策略 輸入 訓練集d 屬性集a 過程 函式treegenerate d,a 1 生成結點no...