機器學習崗位面試問題彙總 之 SVM

2021-08-02 23:50:44 字數 2191 閱讀 6898

自己結合網路、書本內容總結,歡迎指正歡迎補充。

更新日期:20170607—版本1

1.簡述svm

二分類模型、更嚴格優化條件—>更好分界線,低維—->高維,間隔最大的分割平面,不太容易過擬合(2個原因),多層感知機(sigmoid核),3種分類,2種求解方法

2.svm的主要特點

(1)非線性對映-理論基礎 (2)最大化分類邊界-方法核心 (3)支援向量-計算結果 (4)小樣本學習方法 (5)最終的決策函式只有少量支援向量決定,避免了「維數災難」 (6)少數支援向量決定最終結果—->可「剔除」大量冗餘樣本+演算法簡單+具有魯棒性(體現在3個方面) (7)學習問題可表示為凸優化問題—->全域性最小值 (8)可自動通過最大化邊界控制模型,但需要使用者指定核函式型別和引入鬆弛變數 (9)適合於小樣本,優秀泛化能力(因為結構風險最小) (10)泛化錯誤率低,分類速度快,結果易解釋

3.解釋間隔最大化

幾何間隔最大—–>充分大的確信度—–>對難分的

4.解釋支援向量

線性可分情況下的定義+線性不可分情況下的定義

(1)線性可分svm對sv的幾種等價定義 (2)線性svm對sv的幾種等價定義 (3)比較線性可分svm的sv的定義和線性svm對於sv定義之間的區別與聯絡

5.svm的推導

見《統計學習方法》或 筆記:函式間隔—>幾何間隔—>幾何間隔最大化—>函式間隔最大化—>令r^=1—> max 變 min—->拉格朗日函式—->求解對偶問題的3個步驟

(1)線性可分 (2)線性近似可分 (3)線性不可分

6.為什麼要引入對偶問題

(1)容易求解 (2)核函式

note:拉格朗日對偶沒有改變最優解,但改變了演算法複雜度:原問題—樣本維度;對偶問題–樣本數量。所以 線性分類&&樣本維度《樣本數量:原問題求解(liblinear預設); 非線性–公升維—一般導致 樣本維度》樣本數量:對偶問題求解

7.svm的優缺點

優點:見主要特點

缺點:(1)大規模訓練樣本(m階矩陣計算) (2)傳統的不適合多分類 (3)對缺失資料、引數、核函式敏感

8.svm的應用

模式識別領域中的文字識別、中文分類、人臉識別等;工程技術、資訊過濾等。

9.如何選擇核函式

(1)線性可分 (2)線性不可分(多項式~,高斯~,拉普拉斯~,sigmoid~)

10.rbf核的優點

大小高低都適用。具體來說(1)無窮維,線性核是其特例 (2)與多項式~比,rbf需確定的引數少 (3)某些引數下,與sigmoid~有相似的功能

11.核函式選取與feature、樣本之間的關係

(1)fea大≈樣本數量:lr or 線性核 (2)fea小,樣本數量不大也不小:高斯核 (3)fea大,樣本數量多:手工新增特徵後轉(1)

12.介紹你所知道的幾種核函式

多項式~,高斯~,拉普拉斯~,sigmoid~;線性~

13.如何調節懲罰因子

懲罰因子c表示有多重視離群點帶來的損失,當所有離群點的鬆弛變數和一定是,c越大,對目標函式的損失也就越大。

c不是乙個變數,是需要引數尋優的常量。

14.如何防止svm過擬合(提高泛化能力)

鬆弛變數的平方和?

15.svm與lr的區別與聯絡

聯絡:(1)分類(二分類) (2)可加入正則化項

區別:(1)lr–引數模型;svm–非引數模型?(2)目標函式:lr—logistical loss;svm–hinge loss (3)svm–support vectors;lr–減少較遠點的權重 (4)lr–模型簡單,好理解,精度低,可能區域性最優;svm–理解、優化複雜,精度高,全域性最優,轉化為對偶問題—>簡化模型和計算 (5)lr可以做的svm可以做(線性可分),svm能做的lr不一定能做(線性不可分)

16.對偶問題的求解—smo演算法

見《統計學習方法》

參考:

《統計學習方法》,李航

機器學習崗位面試問題彙總 之 深度學習

自己結合網路內容總結,歡迎指正歡迎補充。最新更新 20170624 版本2 增加22 28 1.模式識別 機器學習 深度學習的區別與聯絡 模式識別 過去 程式 機器做智慧型的事 決策樹等 機器學習 熱點領域 給資料 學習資料 深度學習 前言領域 強調模型 2.早年神經網路被淘汰的原因 耗時 區域性最...

機器學習崗位面試問題彙總 之 總體性問題

自己結合網路內容總結,歡迎指正歡迎補充。最新更新 20170627 版本2 擴充問題,取消簡易答案 1.機器學習 模式識別 深度學習的關係 2.解釋監督學習 非監督學習 半監督學習的關係 3.機器學習模型分類 之 監督 非監督 4.機器學習模型分類 之 回歸 分類 標註 5.機器學習模型分類 之 判...

機器學習崗位面試問題總結 Tencent

tencent的 面試一般都不會提前溝通,因此投遞完簡歷之後,需要保持 隨時暢通,並準備一篇自我介紹,3 5分鐘左右。q1 支援向量機,最後為什麼選擇對偶來求解?1 對偶問題將原始問題中的不等式約束轉化為等式約束 2 方便了核函式的引入 3 降低了問題的複雜度 由求特徵向量w轉化為求比例係數a,在原...