線性可分支援向量機（二）

線性可分支援向量機（二）：**性可分支援向量機(一)中，我們研究的是最理想的情況，即被分類的兩類樣本點沒有交叉，能夠完全被分離超平面給分離。但實際上的情況一般都不是那麼理想，可能找不出乙個完美的分離超平面。有可能有樣本點位於分離超平面的另一側。此時，我們所追求的就是軟間隔最大化。

軟間隔最大化

根據博文一的分析，在尋找到支援向量並做出超平面後，對於正確分類的點，它必定滿足

。現在存在一些不能滿足函式間隔大於1的點，可以引入乙個鬆弛變數ξi，使得

。可以看出，這個ξi實際上就是誤分類點到正確分類的間隔邊界的距離。與此同時，要在目標優化函式上加上乙個代價，則目標函式變為了

。實際上，這個等式包含兩項，第一項代表了結構風險最小化，第二項則代表了經驗風險最小化。目標函式裡的c>0，被叫做懲罰係數，它用來調和兩個風險之間的關係。所以，這個目標函式包含了兩層意思，一是希望間隔盡量大，二是使誤分類個數點盡量少。

線性不可分的支援向量機問題就變為了如下凸二次規劃問題：--

，i=1,2,…,n

以上二次規劃問題的拉格朗日函式為：

同樣的，先求l對ω，b，ξ的偏倒數，得到

將以上三式帶回到拉格朗日函式中，最後得到原問題的對偶問題：--

從對偶問題可以看到，原式中的ξi，已經被消掉了。

從三個約束可以得出關於α的約束：0<= αi <=c。

對比一下博文一硬體隔支援向量機，唯一差別就在於對αi的約束上。自然的，求解過程也類似，不同地方在於對於硬間隔，選取αi時只考慮它大於0就行。而對於軟間隔，則還必須滿足αi<=c這個約束條件。

具體計算過程可參考博文一。

合頁損失函式

首先注意乙個問題，對於鬆弛變數ξi，如果乙個樣本點被正確分類了，那麼對應的ξi應該為0。

根據約束條件，

，則，原來的優化問題可以表示為：

上邊第二項代表值為正時為它本身，值為負時等於0，其意義在於當樣本點被正確分類且函式間隔大於1時，損失為0，否則損失為

。而這個函式，就被稱為合頁損失函式，其名字是根據函式影象形狀而得稱的。