線性可分支援向量機(二)

2021-12-30 03:07:29 字數 1033 閱讀 9222

線性可分支援向量機(二):**性可分支援向量機(一)中,我們研究的是最理想的情況,即被分類的兩類樣本點沒有交叉,能夠完全被分離超平面給分離。但實際上的情況一般都不是那麼理想,可能找不出乙個完美的分離超平面。有可能有樣本點位於分離超平面的另一側。此時,我們所追求的就是軟間隔最大化。

軟間隔最大化

根據博文一的分析,在尋找到支援向量並做出超平面後,對於正確分類的點,它必定滿足

。現在存在一些不能滿足函式間隔大於1的點,可以引入乙個鬆弛變數ξi,使得

。可以看出,這個ξi實際上就是誤分類點到正確分類的間隔邊界的距離。與此同時,要在目標優化函式上加上乙個代價,則目標函式變為了

。實際上,這個等式包含兩項,第一項代表了結構風險最小化,第二項則代表了經驗風險最小化。目標函式裡的c>0,被叫做懲罰係數,它用來調和兩個風險之間的關係。所以,這個目標函式包含了兩層意思,一是希望間隔盡量大,二是使誤分類個數點盡量少。

線性不可分的支援向量機問題就變為了如下凸二次規劃問題:--

,i=1,2,…,n

,i=1,2,…,n

以上二次規劃問題的拉格朗日函式為:

同樣的,先求l對ω,b,ξ的偏倒數,得到

將以上三式帶回到拉格朗日函式中,最後得到原問題的對偶問題:--

從對偶問題可以看到,原式中的ξi,已經被消掉了。

從三個約束可以得出關於α的約束:0<= αi <=c。

對比一下博文一硬體隔支援向量機,唯一差別就在於對αi的約束上。自然的,求解過程也類似,不同地方在於對於硬間隔,選取αi時只考慮它大於0就行。而對於軟間隔,則還必須滿足αi<=c這個約束條件。

具體計算過程可參考博文一。

合頁損失函式

首先注意乙個問題,對於鬆弛變數ξi,如果乙個樣本點被正確分類了,那麼對應的ξi應該為0。

根據約束條件,

,則,原來的優化問題可以表示為:

上邊第二項代表值為正時為它本身,值為負時等於0,其意義在於當樣本點被正確分類且函式間隔大於1時,損失為0,否則損失為

。而這個函式,就被稱為合頁損失函式,其名字是根據函式影象形狀而得稱的。

線性可分支援向量機

支援向量機 support vector machines,svm 是一種二類分類模型。根據模型的複雜程度可以分為線性可分支援向量機 線性支援向量機及非線性支援向量機。簡單模型是複雜模型的基礎,也是複雜模型的特殊情況。本文假設訓練資料線性可分,介紹了線性可分支援向量機如何通過硬間隔最大化 hard ...

線性可分支援向量機筆記

支援向量機是一種二分類分類器。給一堆資料 x i,yi 並假設它們是線性可分的。線性可分支援向量機的目的就是從這堆資料中學到乙個分類超平面wx b 0 利用這個平面進行分類。那麼如何得到這個分類超平面呢?假設這個分類超平面我們已經得到了,為wx b 0 那麼對於點 x i,yi 我們可以用 w xi...

SVM筆記(三) 線性可分支援向量機

如果訓練輸入線性可分,通過應間隔最大化學習得到的線性分類器稱為線性可分支援向量機。假設特徵空間上的訓練資料集 t 其中xi 表示第i個特徵向量,yi 為xi 的類標記。學習目標是在特徵空間找到乙個分離超平面 w x b 0 可以將正負樣例分開,即正負樣例分布在超平面的兩側。定義超平面關於訓練資料集t...