機器學習崗位面試問題彙總之 SVM

自己結合網路、書本內容總結，歡迎指正歡迎補充。

更新日期：20170607—版本1

1.簡述svm

二分類模型、更嚴格優化條件—>更好分界線，低維—->高維，間隔最大的分割平面，不太容易過擬合（2個原因），多層感知機（sigmoid核），3種分類，2種求解方法

2.svm的主要特點

（1）非線性對映-理論基礎（2）最大化分類邊界-方法核心（3）支援向量-計算結果（4）小樣本學習方法（5）最終的決策函式只有少量支援向量決定，避免了「維數災難」（6）少數支援向量決定最終結果—->可「剔除」大量冗餘樣本+演算法簡單+具有魯棒性（體現在3個方面）（7）學習問題可表示為凸優化問題—->全域性最小值（8）可自動通過最大化邊界控制模型，但需要使用者指定核函式型別和引入鬆弛變數（9）適合於小樣本，優秀泛化能力（因為結構風險最小）（10）泛化錯誤率低，分類速度快，結果易解釋

3.解釋間隔最大化

幾何間隔最大—–>充分大的確信度—–>對難分的

4.解釋支援向量

線性可分情況下的定義+線性不可分情況下的定義

（1）線性可分svm對sv的幾種等價定義（2）線性svm對sv的幾種等價定義（3）比較線性可分svm的sv的定義和線性svm對於sv定義之間的區別與聯絡

5.svm的推導

見《統計學習方法》或筆記：函式間隔—>幾何間隔—>幾何間隔最大化—>函式間隔最大化—>令r^=1—> max 變 min—->拉格朗日函式—->求解對偶問題的3個步驟

（1）線性可分（2）線性近似可分（3）線性不可分

6.為什麼要引入對偶問題

（1）容易求解（2）核函式

note：拉格朗日對偶沒有改變最優解，但改變了演算法複雜度：原問題—樣本維度；對偶問題–樣本數量。所以線性分類&&樣本維度《樣本數量：原問題求解（liblinear預設）；非線性–公升維—一般導致樣本維度》樣本數量：對偶問題求解

7.svm的優缺點

優點：見主要特點

缺點：（1）大規模訓練樣本（m階矩陣計算）（2）傳統的不適合多分類（3）對缺失資料、引數、核函式敏感

8.svm的應用

模式識別領域中的文字識別、中文分類、人臉識別等；工程技術、資訊過濾等。

9.如何選擇核函式

（1）線性可分（2）線性不可分（多項式~，高斯~，拉普拉斯~，sigmoid~）

10.rbf核的優點

大小高低都適用。具體來說（1）無窮維，線性核是其特例（2）與多項式~比，rbf需確定的引數少（3）某些引數下，與sigmoid~有相似的功能

11.核函式選取與feature、樣本之間的關係

（1）fea大≈樣本數量：lr or 線性核（2）fea小，樣本數量不大也不小：高斯核（3）fea大，樣本數量多：手工新增特徵後轉（1）

12.介紹你所知道的幾種核函式

多項式~，高斯~，拉普拉斯~，sigmoid~；線性~

13.如何調節懲罰因子

懲罰因子c表示有多重視離群點帶來的損失，當所有離群點的鬆弛變數和一定是，c越大，對目標函式的損失也就越大。

c不是乙個變數，是需要引數尋優的常量。

14.如何防止svm過擬合（提高泛化能力）

鬆弛變數的平方和？

15.svm與lr的區別與聯絡

聯絡：（1）分類（二分類）（2）可加入正則化項

區別：（1）lr–引數模型；svm–非引數模型？（2）目標函式：lr—logistical loss；svm–hinge loss （3）svm–support vectors；lr–減少較遠點的權重（4）lr–模型簡單，好理解，精度低，可能區域性最優；svm–理解、優化複雜，精度高，全域性最優，轉化為對偶問題—>簡化模型和計算（5）lr可以做的svm可以做（線性可分），svm能做的lr不一定能做（線性不可分）

16.對偶問題的求解—smo演算法

見《統計學習方法》

參考：

《統計學習方法》，李航

機器學習崗位面試問題彙總之 SVM

機器學習崗位面試問題彙總之深度學習

機器學習崗位面試問題彙總之總體性問題

機器學習崗位面試問題總結 Tencent

機器學習崗位面試問題彙總 之 SVM

機器學習崗位面試問題彙總 之 深度學習

機器學習崗位面試問題彙總 之 總體性問題

機器學習崗位面試問題總結 Tencent

相關推薦

機器學習崗位面試問題彙總之 SVM

機器學習崗位面試問題彙總之深度學習

機器學習崗位面試問題彙總之總體性問題