決策樹問題彙總

2021-09-25 16:13:35 字數 2697 閱讀 1749

1. 簡述決策樹原理?

決策樹是一種基本的分類與回歸方法。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。

決策樹是一種自上而下,對樣本資料進行樹形分類的過程,由節點和有向邊組成。

節點分為內部節點和葉節點,每個內部節點表示乙個特徵或屬性,葉節點表示類別,邊代表劃分的條件。

從頂部節點開始,所有樣本聚在一起,經過根節點的劃分,樣本被分到不同的子節點中,再根據子節點的特徵進一步劃分,直至所有樣本都被歸到某個類別。

構建決策樹 就是乙個遞迴的選擇內部節點,計算劃分條件的邊,最後到達葉子節點的過程。

決策樹的生成:

決策樹的剪枝:

2. 為什麼要對決策樹進行減枝?如何進行減枝?

在決策樹學習過程中,為了盡可能正確分類訓練樣本,結點劃分過程將不斷重複,有時會造成決策樹分支過多,因為給訓練資料巨大的信任,這種形式形式很容易造成過擬合。為了防止過擬合需要進行決策樹剪枝, 一般分為預剪枝和後剪枝,預剪枝是在決策樹的構建過程中加入限制,比如控制葉子節點最少的樣本個數,提前停止。 後剪枝是在決策樹構建完成之後,根據加上正則項的結構風險最小化自下向上進行的剪枝操作.。剪枝的目的就是防止過擬合,是模型在測試資料上變現良好,更加魯棒

決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。

(2) 後剪枝( post-pruning):是先生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升,則將該子樹替換為葉結點。

3. id3、c4.5和cart三種決策樹的區別?

4. 決策樹和條件概率分布的關係?

決策樹可以表示成給定特徵條件下類的條件概率分布. 決策樹中的每一條路徑都對應是劃分的乙個條件概率分布. 每乙個葉子節點都是通過多個條件之後的劃分空間,在葉子節點中計算每個類的條件概率,必然會傾向於某乙個類,即這個類的概率最大。

5. id3和c4.5演算法可以處理實數特徵嗎?如果可以應該怎麼處理?

id3和c4.5使用劃分節點的方法分別是資訊增益和資訊增益比,從這個公式中我們可以看到 這是處理類別特徵的方法,實數特徵能夠計算資訊增益嗎?

我們可以定義x是實數特徵的資訊增益是:g(d

∣x:t

)=h(

d)−h

(d∣x

:t)g(d|x:t)=h(d)-h(d|x:t)

g(d∣x:

t)=h

(d)−

h(d∣

x:t)

其中,h(d

∣x:t

)=h(

d∣x≤

t)p(

x≤t)

+h(d

∣x>t)

p(x>t)

h(d|x:t)=h(d|x \leq t)p(x \leq t)+h(d|x>t)p(x>t)

h(d∣x:

t)=h

(d∣x

≤t)p

(x≤t

)+h(

d∣x>t)

p(x>t)

,則:g(d

∣x)=

maxt

=g(d

∣x:t

)g(d|x)=max_t=g(d|x:t)

g(d∣x)

=max

t​=g

(d∣x

:t)。對於每乙個實數可以使用這種方式進行分割. 除此之外,我們還可以使用特徵的分桶,將實數特徵對映到有限個桶中,可以直接使用id3和c4.5演算法.

6. 既然資訊增益可以計算,為什麼c4.5還使用資訊增益比?

在使用資訊增益的時候,如果某個特徵有很多取值,使用這個取值多的特徵會的大的資訊增益,這個問題是出現很多分支,將資料劃分更細,模型複雜度高,出現過擬合的機率更大。使用資訊增益比就是為了解決偏向於選擇取值較多的特徵的問題. 使用資訊增益比對取值多的特徵加上的懲罰,對這個問題進行了校正。

7. 資訊熵、基尼指數都可以表示資料不確定性,為什麼cart使用基尼指數?

資訊熵需要計算對數,計算量大;資訊熵是可以處理多個類別,基尼指數就是針對兩個類計算的,由於cart樹是乙個二叉樹,每次都是選擇yes or no進行劃分,從這個角度也是應該選擇簡單的基尼指數進行計算。

8. 如果由異常值或者資料分布不均勻,會對決策樹有什麼影響?

9. 手動構建cart的回歸樹的前兩個節點,給出公式每一步的公式推到?

10. 決策樹和其他模型相比有什麼優點?

1)簡單直觀,生成的決策樹很直觀。

2)基本不需要預處理,不需要提前歸一化,處理缺失值。

3)使用決策樹**的代價是o(log2m)。 m為樣本數。

4)既可以處理離散值也可以處理連續值。很多演算法只是專注於離散值或者連續值。

5)可以處理多維度輸出的分類問題。

6)相比於神經網路之類的黑盒分類模型,決策樹在邏輯上可以得到很好的解釋

7)可以交叉驗證的剪枝來選擇模型,從而提高泛化能力。

8) 對於異常點的容錯能力好,健壯性高。

11. 決策樹的目標函式是什麼?

決策樹筆記彙總

網上關於決策樹的博文已經有很多了。我挑選了幾篇比較好理解的幾篇,作為以後查閱備忘。同時,決策樹剛開始學習時,概念比較多,建議博文結合西瓜書一起看,因為有些公式這樣寫不太理解,但是別的地方換一種寫法,就會容易理解很多。資訊熵 資訊增益 id3 資訊增益比 c4.5 參閱下面兩篇博文 基尼指數 cart...

決策樹演算法面試問題彙總

自己救自己系列,不然要沒工作了,我太難了。紅色加粗是我見了好多次,感覺經常會考得點。感覺決策樹是很常考的內容,所以一定要注意!1 id3 的構造準則是資訊增益 2 c4.5的構造準則是資訊增益比 3 cart classfication and regression tree,分類與回歸樹 分類問題...

決策樹相關問題

bagging與boosting 參考資料 決策樹是一種典型的採用貪心策略的分類模型,即用區域性最優解去逼近全域性最優解。在整個分類過程中,核心的指標是 不純度 impurity 也就是分得 開不開 因為對於分類問題,我們總是期望能夠把資料盡可能地不相交地隔開 比較svm的基本思想 尋找最大間隔分離...