樹模型 1 決策樹常見面試題整理

2021-10-10 16:52:19 字數 1195 閱讀 6927

1.決策樹的原理

決策樹是一種樹結構,從根節點出發,每個分支都將訓練資料劃分成了互不相交的子集。分支的劃分可以以單個特徵為依據,也可以以特徵的線性組合為依據。決策樹可以解決回歸和分類問題,在**過程中,乙個測試資料會依據已經訓練好的決策樹到達某一葉子節點,該葉子節點即為回歸或分類問題的**結果。

從概率論的角度理解,決策樹是定義在特徵空間和類空間上的條件概率分布。每個父節點可以看作子樹的先驗分布,子樹則為父節點在當前特徵劃分下的後驗分布。

2.資訊增益和資訊增益率的理解

公式前一項為未劃分時的資訊增益,後一項為每個子樹的資訊增益乘以權重的和,權重的意義是使樣本數多的子節點更重要。

3.決策樹出現過擬合的原因及解決辦法

解決辦法

4.如何對決策樹進行剪枝?

剪枝是防止決策樹過擬合的方法。一棵完全生長的決策樹很可能失去泛化能力,因此需要剪枝。

方法 3 裡,對於乙個決策樹,每次生長前,可以判斷生長後系統在驗證集上準確度是否提公升,如果經過一次生長,系統在驗證集上的準確度降低了,那麼中止這次生長。

3)後剪枝

後剪枝方法是對一棵已經完全生長的決策樹進行剪枝

我們重點介紹第一種。錯誤率降低剪枝的方法比較直觀,從下至上遍歷所有非葉子節點的子樹,每次把子樹剪枝(所有資料歸到該節點,將資料中最多的類設為結果),與之前的樹在驗證集上的準確率進行比較,如果有提高,則剪枝,否則不剪,直到所有非葉子節點被遍歷完。

4)預剪枝和後剪枝的優缺點比較

時間成本方面,預剪枝在訓練過程中即進行剪枝,後剪枝要在決策樹完全生長後自底向上逐一考察。顯然,後剪枝訓練時間更長。預剪枝更適合解決大規模問題。

剪枝的效果上,預剪枝的常用方法本質上是基於貪心的思想,但貪心法卻可能導致欠擬合,後剪枝的欠擬合風險很小,泛化效能更高。

另外,預剪枝的有些方法使用了閾值,如何設定乙個合理的閾值也是一項挑戰。

5.決策樹需要進行歸一化處理嗎

概率模型不需要歸一化,因為他們不關心變數的值,而是關心變數的分布和變數之間的條件概率。決策樹是一種概率模型,數值縮放,不影響**點位置。所以一般不對其進行歸一化處理。

6.決策樹如何處理缺失值

該博文對下述需處理缺失值的三種情況有詳細的描述:

7.決策樹與邏輯回歸的區別

8.決策樹的優缺點

缺點

決策樹面試題

沒有。看這個鏈結 決策樹是一種擁有樹形結構的監督學習分類演算法模型。結構包含根節點 內部節點和葉子節點。根節點 代表包含資料集中所有資料的集合 子節點 經過屬性劃分後產生的非葉子節點,代表經過條件劃分後更加相似的樣本資料 葉子節點 代表某乙個結果類別,在同乙個類別的樣本資料屬於同乙個類別。最下面的節...

常見面試題整理1

面試題整理1 相同點 都是繼承collection介面 不同點 1.list 元素存放有順序,元素可重複 set 元素存放無順序,元素不可重複 2.list 支援for迴圈,也可以用迭代器 set 只能用迭代器,因為它是無序的,無法通過下標獲取元素 3.list和陣列相似,查詢元素效率高,插入刪除元...

常見面試題整理

題目 如下為型別cmystring的宣告,請為該型別新增賦值運算子函式。class cmystring 注意點 1.返回值是否為該型別的引用。如果為該型別引用則可連續賦值。如果返回void,則無法通過編譯 2.傳入引數是否宣告為常量引用。如果傳入引數不是常量引用,則會有一次非必要的拷貝構造函式呼叫 ...