決策樹問題彙總

1. 簡述決策樹原理？

決策樹是一種基本的分類與回歸方法。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件概率分布。

決策樹是一種自上而下，對樣本資料進行樹形分類的過程，由節點和有向邊組成。

節點分為內部節點和葉節點，每個內部節點表示乙個特徵或屬性，葉節點表示類別，邊代表劃分的條件。

從頂部節點開始，所有樣本聚在一起，經過根節點的劃分，樣本被分到不同的子節點中，再根據子節點的特徵進一步劃分，直至所有樣本都被歸到某個類別。

構建決策樹就是乙個遞迴的選擇內部節點，計算劃分條件的邊，最後到達葉子節點的過程。

決策樹的生成：

決策樹的剪枝：

2. 為什麼要對決策樹進行減枝？如何進行減枝？

在決策樹學習過程中，為了盡可能正確分類訓練樣本，結點劃分過程將不斷重複，有時會造成決策樹分支過多，因為給訓練資料巨大的信任，這種形式形式很容易造成過擬合。為了防止過擬合需要進行決策樹剪枝，一般分為預剪枝和後剪枝，預剪枝是在決策樹的構建過程中加入限制，比如控制葉子節點最少的樣本個數，提前停止。後剪枝是在決策樹構建完成之後，根據加上正則項的結構風險最小化自下向上進行的剪枝操作.。剪枝的目的就是防止過擬合，是模型在測試資料上變現良好，更加魯棒。

決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。

（2）後剪枝( post-pruning)：是先生成一棵完整的決策樹，然後自底向上地對非葉結點進行考察，若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升，則將該子樹替換為葉結點。

3. id3、c4.5和cart三種決策樹的區別？

4. 決策樹和條件概率分布的關係？

決策樹可以表示成給定特徵條件下類的條件概率分布. 決策樹中的每一條路徑都對應是劃分的乙個條件概率分布. 每乙個葉子節點都是通過多個條件之後的劃分空間，在葉子節點中計算每個類的條件概率，必然會傾向於某乙個類，即這個類的概率最大。

5. id3和c4.5演算法可以處理實數特徵嗎？如果可以應該怎麼處理？

id3和c4.5使用劃分節點的方法分別是資訊增益和資訊增益比，從這個公式中我們可以看到這是處理類別特徵的方法，實數特徵能夠計算資訊增益嗎？

我們可以定義x是實數特徵的資訊增益是：g(d

∣x:t

)=h(

d)−h

(d∣x

:t)g(d|x:t)=h(d)-h(d|x:t)

g(d∣x:

t)=h

(d)−

h(d∣

x:t)

其中，h(d

∣x:t

)=h(

d∣x≤

t)p(

x≤t)

+h(d

∣x>t)

p(x>t)

h(d|x:t)=h(d|x \leq t)p(x \leq t)+h(d|x>t)p(x>t)

h(d∣x:

t)=h

(d∣x

≤t)p

(x≤t

)+h(

d∣x>t)

p(x>t)

，則：g(d

∣x)=

maxt

=g(d

∣x:t

)g(d|x)=max_t=g(d|x:t)

g(d∣x)

=max

t=g

(d∣x

:t)。對於每乙個實數可以使用這種方式進行分割. 除此之外,我們還可以使用特徵的分桶，將實數特徵對映到有限個桶中，可以直接使用id3和c4.5演算法.

6. 既然資訊增益可以計算，為什麼c4.5還使用資訊增益比？

在使用資訊增益的時候，如果某個特徵有很多取值，使用這個取值多的特徵會的大的資訊增益，這個問題是出現很多分支，將資料劃分更細，模型複雜度高，出現過擬合的機率更大。使用資訊增益比就是為了解決偏向於選擇取值較多的特徵的問題. 使用資訊增益比對取值多的特徵加上的懲罰，對這個問題進行了校正。

7. 資訊熵、基尼指數都可以表示資料不確定性，為什麼cart使用基尼指數？

資訊熵需要計算對數，計算量大；資訊熵是可以處理多個類別，基尼指數就是針對兩個類計算的，由於cart樹是乙個二叉樹，每次都是選擇yes or no進行劃分，從這個角度也是應該選擇簡單的基尼指數進行計算。

8. 如果由異常值或者資料分布不均勻，會對決策樹有什麼影響？

9. 手動構建cart的回歸樹的前兩個節點，給出公式每一步的公式推到？

10. 決策樹和其他模型相比有什麼優點？

1）簡單直觀，生成的決策樹很直觀。

2）基本不需要預處理，不需要提前歸一化，處理缺失值。

3）使用決策樹**的代價是o(log2m)。 m為樣本數。

4）既可以處理離散值也可以處理連續值。很多演算法只是專注於離散值或者連續值。

5）可以處理多維度輸出的分類問題。

6）相比於神經網路之類的黑盒分類模型，決策樹在邏輯上可以得到很好的解釋

7）可以交叉驗證的剪枝來選擇模型，從而提高泛化能力。

8）對於異常點的容錯能力好，健壯性高。

11. 決策樹的目標函式是什麼？

決策樹問題彙總

決策樹筆記彙總

決策樹演算法面試問題彙總

決策樹相關問題

決策樹問題彙總

決策樹筆記彙總

決策樹演算法面試問題彙總

決策樹相關問題

相關推薦