svm訓練完儲存權重 svm與梯度下降法

首先還是回顧一下原理。

先了解一下最簡單的線性svm向量機，個人認為從hinge loss的角度來解釋線性svm比使用幾何意義來說更加簡單快速並且擴充套件性更好。

首先我們令：

這是乙個簡單的線性回歸的形式，此時我們來定義損失函式：

可以看到，這是乙個通用的損失函式的形式，當損失函式l為二元交叉熵的時候，上面的l(x)表示的就是邏輯回歸的損失函式，當損失函式l為mse的時候，上面的l(x)表示的就是線性回歸的損失函式，當l為hinge loss的時候，上面的l(x)表示的就是線性svm的損失函式。

此時我們令

,其中

為了簡單起見我們令

，和邏輯回歸、線性回歸推導過程中的矩陣形式表達是一樣的。

那麼這個時候我們就可以得到線性svm的損失函式了：

，l定義如上，這稱之為硬間隔線性svm的損失函式；而加入正則項之後：

,這稱之為軟間隔線性svm的損失函式。進一步的我們把hinge loss的表示式帶入，可得（下面統一以軟間隔線性svm的損失函式為例，硬間隔的推導基本類似）：

這就是線性svm的最終的損失函式，這玩意兒居然是凸函式。。。真沒看出來。。。

然後就是常規的梯度下降法來求解引數了，

分別對這兩個式子進行求導：

當時，上式等於0

否則，上式等於

(這也是為什麼svm要把正負樣本分別定義為+1和-1的原因，如果把類別定義為0則上面這個式子的梯度永遠為0)

所以，最終的梯度更新公式為：

（1）、當

時，即

時，梯度更新為0，即模型權重不進行更新。從回歸的角度來說很好理解，當樣本的類別為1時，用樣本的特徵x和權重w的乘積大小與1比較，如果大於1，表示分類正確，此樣本在分介面w*x-1=0下方；當樣本的類別為-1時，用樣本的特徵x和權重w的乘積大小與-1比較，如果小於-1，表示分類正確，此樣本在分介面w*x+1=0上方。此時，svm的分類間隔為：w*x+1=0與w*x-1=0，也就是我們熟悉的圖：

從上述的推導也可以看出，在分界間隔之外的樣本對svm的模型來說是沒有梯度貢獻的，這也是為什麼svm在小樣本的情況下效果就可以比較好的原因，因為我們最終的分界間隔可能僅僅受少部分樣本影響。

（2）、當

時，即

時，梯度更新為

,即這樣，svm的推導就完成了。

這也是sklearn中sgdclassifier的loss 為hinge的時候，svm的計算方式。

這樣理解起來方便多了。

sklearn 的linearsvc用的也是上面的求解方法，而sklearn.svm則使用的是傳統的smo的求解方法，這種方法的問題難以擴充套件到數量巨大的樣本上，而使用這種梯度下降法求解的svm則可以比較容易的擴充套件到海量的樣本上，畢竟記憶體不夠可以增量訓練。

這就是在海量資料上使用的求解svm的pegasos演算法，具體可見：

關於非線性svm，目前沒有找到什麼很準確的推導，不過在實現上倒是在sklearn的官網上發現了乙個非常有意思的東西：

傳統的svm的低維到高維的對映是隱式的，直接通過核技巧來規避了高維空間的複雜運算，

sgdclassifier可以使在大型資料集上進行非線性學習成為可能

from sklearn.linear_model import sgdclassifier

x = [[0, 0], [1, 1], [1, 0], [0, 1]]

y = [0, 0, 1, 1]

rbf_feature = rbfsampler(gamma=1, random_state=1)

x_features = rbf_feature.fit_transform(x)

clf = sgdclassifier(max_iter=5, tol=1e-3)

clf.fit(x_features, y)

如果不是看了李巨集毅的svm核技巧的講解估計我一臉懵逼。

不同的核函式決定了不同的低維到高維的對映關係，而在kernel a決定的對映關係 a下才能用kernel a實施核技巧的運算（比如你不可能用rbf核來計算原始特徵空間的多項式核的對映）。

比如：

機器學習有很多關於核函式的說法，核函式的定義和作用是什麼？www.zhihu.com

最高贊舉的例子：

上述使用的多項式核函式實際上顯式的對映就是把(x,y)對映為:

也就是乙個二維到三維的對映。

因為原始的rbf核的對映關係實際上是對映到無窮維度的：

具體的原因可見：

對指數部分做了無限的泰勒展開。

所以sklearn中的rbfsamler做了簡化，只取展開式前的n項，n可由使用者自行指定。

svm訓練完儲存權重 svm與梯度下降法

LR與SVM的異同

SVM使用與引數優化

SVM與LR的區別

svm訓練完儲存權重 svm與梯度下降法

LR與SVM的異同

SVM使用與引數優化

SVM與LR的區別

相關推薦