機器學習面試之 LR與SVM

svm

lr和svm的區別

lr1. lr的損失函式

2. lr的推導過程

請參考第一題

3. lr如何解決共線性，為什麼深度學習不強調

1）pca等降維方法。因為在原始特徵空間中變數之間相關性大，降維可以去除這種共線性。

2）正則化。使用l2或者l1或者l1+l2。

3）逐步回歸法。

深度學習為什麼不強調？因為共線性源於線性模型，深度學習本身不是線性問題。

4. lr如何防止過擬合

1）增大訓練資料量

2）重新清洗資料（不純）

3）減少特徵數量（會失去一些資訊）

4）正則化

5）採用dropout方法（nn中常用，神經元以一定的概率不工作）

5. lr分布式訓練怎麼做

1）按行並行。樣本拆分到不同機器上去，分布式計算梯度，然後歸併求和再算平均。

2）按列並行。將同一樣本的不同特徵也分不到不同機器去。

6. lr為什麼使用sigmoid

1）平滑連續，單調可微分。

2）輸出值在[0, 1]之間，使其具有概率意義。

7. lr為什麼使用交叉熵，不使用mse

更新太慢。（使用mse時，mse的導數裡有sigmoid的導數，sigmoid的導數的最大值為0.25，更新太慢）

svm1. svm的公式及推導

2. svm的損失函式及推導

3. svm怎麼擴充套件到多分類問題

間接法一對多：某個類為一類，其餘類為一類

間接法一對一：任意兩類訓練乙個分類器

4. svm的原理

svm是一種二類分類模型。它的基本模型是在特徵空間中尋找間隔最大化的分離超平面的線性分類器。通過該超平面實現對未知樣本集的分類。

5. svm的類別

當訓練樣本線性可分時。通過硬間隔最大化，學習乙個線性分類器。

當訓練樣本近似線性可分時。通過軟間隔最大化，學習乙個線性分類器。

當訓練樣本線性不可分時。通過使用核技巧及軟間隔最大化，學習非線性分類器。

6. 簡述軟間隔

硬間隔：所有樣本都必須劃分正確

軟間隔：允許某些樣本不滿足約束（劃分錯誤）

7. 簡述核函式，好處，如何選擇？

利用專家先驗知識來選擇。

線性核：特徵的數量大，用線性核；

高斯核：特徵的數量小，用高斯核。

交叉驗證法。使用不同的核函式得到各自的誤差，誤差最小的效果最好。

混合核函式方法。將不同的核函式結合起來。

lr和svm的區別

lr是引數模型，svm是非引數模型。

從目標函式來看，區別在於邏輯回歸採用的是logistical loss，svm採用的是hinge loss.這兩個損失函式的目的都是增加對分類影響較大的資料點的權重，減少與分類關係較小的資料點的權重。

svm的處理方法是只考慮support vectors，也就是和分類最相關的少數點，去學習分類器。而邏輯回歸通過非線性對映，大大減小了離分類平面較遠的點的權重，相對提公升了與分類最相關的資料點的權重。

邏輯回歸相對來說模型更簡單，好理解，特別是大規模線性分類時比較方便。而svm的理解和優化相對來說複雜一些，svm轉化為對偶問題後,分類只需要計算與少數幾個支援向量的距離,這個在進行複雜核函式計算時優勢很明顯,能夠大大簡化模型和計算。

logic 能做的 svm能做，但可能在準確率上有問題，svm能做的logic有的做不了。

機器學習面試之 LR與SVM

機器學習之SVM

機器學習演算法之LR

機器學習原理掃盲系列（三）LR與SVM的聯絡與區別

機器學習面試 之 LR與SVM

機器學習之SVM

機器學習演算法之LR

機器學習原理掃盲系列（三）LR與SVM的聯絡與區別

相關推薦

機器學習面試之 LR與SVM