機器學習面試筆記整理7 Adaboost

上一輪樣本分佈—>基分類器進行學習—>誤差率—>分類器權重—>更新樣本權重

優點：

1.可使用不同分類器（lr,dt…）作為基分類器

2.精度高

缺點：

1.對異常值敏感

2.基分類器數目（迭代次數）不好設定

3.對樣本不平衡敏感

1. 樣本、分類器權重如何確定的？

根據上一輪的誤差率e求得本輪分類器權重(與e成反比)，再由分類器權重求得樣本權重。（面試可能需要讓進行公式推導）

2. 每次迭代的基分類器有何不同，如何去學習的？

關注上一輪被分類錯誤的樣本，改變樣本分佈，然後基於lr,dt等模型進行學習。

3. 輸出結果？

加權多數表決（權重*基分類器i結果），加大分類誤差率小的弱分類器權重，減小分類誤差率大的弱分類器權重。

4. 損失函式是什麼？

指數損失

5. 為什麼用指數損失函式？

其連續可微，可替代0-1損失函式作為優化目標

6. 講一講前向分步思想？

利用前一輪的學習結果更新後一輪訓練集權重，再進行學習

7. 權重提公升怎麼體現在分類器上？

體現在每輪的誤差率，分類器的權重與該誤差率成反比

ps:機器學習的權重分為三部分：特徵權重，樣本權重，分類器權重

特徵權重：lr,svm

樣本權重：adaboost，訓練樣本類別不均衡，

分類器權重：adaboost

8. adaboost是如何改變樣本權重？

提高被分錯樣本權重，減小分類正確樣本權重，根據當前基分類器的權重，將分錯樣本的權重進行指數級別地增大，分對樣本的權重減小。

機器學習面試筆記整理6 隨機森林

隨機取樣隨機特徵多棵決策樹多數投票分類取平均值回歸優點並行隨機性的引入，增加了多樣性，泛化能力非常強，抗雜訊能力強，對缺失值不敏感可省略交叉驗證，因隨機取樣並繼承決策樹有的優點，包括 1 可得到特徵重要性排序，因此可做特徵選擇 2 可處理高維特徵，且不用特徵選擇 3 能處理離...

HashMap面試筆記整理

1.hashmap在jdk1.8以前和以後的區別 1 jdk1.8以前，hashmap的底層實現是陣列鍊錶，它的缺點就是即使雜湊函式用的再好，也很難達到百分百均勻分布，而且當很多元素放在乙個桶中時，鍊錶會變得很長，此時遍歷的時間複雜度為o n jdk1.8以前，hashmap採用的是頭插法，如果插...

機器學習面試筆記整理4 支援向量機

基於合頁損失找到一條最佳分離邊界，能把最難分的點支援向量分得間隔最大。優點 1.泛化能力高 2.利用核技巧對非線性樣本分類 3.svm 的最終決策函式只由少數的支援向量所確定,計算的複雜性取決於支援向量的數目,而不是樣本空間的維數，可解決高維問題，這在某種意義上避免了維數災難 4少數支援向量決...

機器學習面試筆記整理7 Adaboost

機器學習面試筆記整理6 隨機森林

HashMap面試筆記整理

機器學習面試筆記整理4 支援向量機

相關推薦