樹模型 1 決策樹常見面試題整理

1.決策樹的原理

決策樹是一種樹結構，從根節點出發，每個分支都將訓練資料劃分成了互不相交的子集。分支的劃分可以以單個特徵為依據，也可以以特徵的線性組合為依據。決策樹可以解決回歸和分類問題，在**過程中，乙個測試資料會依據已經訓練好的決策樹到達某一葉子節點，該葉子節點即為回歸或分類問題的**結果。

從概率論的角度理解，決策樹是定義在特徵空間和類空間上的條件概率分布。每個父節點可以看作子樹的先驗分布，子樹則為父節點在當前特徵劃分下的後驗分布。

2.資訊增益和資訊增益率的理解

公式前一項為未劃分時的資訊增益，後一項為每個子樹的資訊增益乘以權重的和，權重的意義是使樣本數多的子節點更重要。

3.決策樹出現過擬合的原因及解決辦法

解決辦法

4.如何對決策樹進行剪枝？

剪枝是防止決策樹過擬合的方法。一棵完全生長的決策樹很可能失去泛化能力，因此需要剪枝。

方法 3 裡，對於乙個決策樹，每次生長前，可以判斷生長後系統在驗證集上準確度是否提公升，如果經過一次生長，系統在驗證集上的準確度降低了，那麼中止這次生長。

3）後剪枝

後剪枝方法是對一棵已經完全生長的決策樹進行剪枝

我們重點介紹第一種。錯誤率降低剪枝的方法比較直觀，從下至上遍歷所有非葉子節點的子樹，每次把子樹剪枝（所有資料歸到該節點，將資料中最多的類設為結果），與之前的樹在驗證集上的準確率進行比較，如果有提高，則剪枝，否則不剪，直到所有非葉子節點被遍歷完。

4）預剪枝和後剪枝的優缺點比較

時間成本方面，預剪枝在訓練過程中即進行剪枝，後剪枝要在決策樹完全生長後自底向上逐一考察。顯然，後剪枝訓練時間更長。預剪枝更適合解決大規模問題。

剪枝的效果上，預剪枝的常用方法本質上是基於貪心的思想，但貪心法卻可能導致欠擬合，後剪枝的欠擬合風險很小，泛化效能更高。

另外，預剪枝的有些方法使用了閾值，如何設定乙個合理的閾值也是一項挑戰。

5.決策樹需要進行歸一化處理嗎

概率模型不需要歸一化，因為他們不關心變數的值，而是關心變數的分布和變數之間的條件概率。決策樹是一種概率模型，數值縮放，不影響**點位置。所以一般不對其進行歸一化處理。

6.決策樹如何處理缺失值

該博文對下述需處理缺失值的三種情況有詳細的描述：

7.決策樹與邏輯回歸的區別

8.決策樹的優缺點

缺點