SVM學習筆記4 核函式和離群點的處理

2022-05-15 23:33:12 字數 1070 閱讀 5510

核函式

在svm裡,核函式是這樣定義的。核函式是乙個n*n(樣本個數)的矩陣,其中:

$k_=exp(-\frac-x^||^}})$

也就是說,當兩個向量越接近時,它們的核函式越接近於1;越遠時,核函式越接近於0。在svm裡,使用$k_$而不使用$(x^)^x^$,應該是就像神經網路或者邏輯回歸裡的啟用函式吧。反正,以後出現兩個樣本內積的地方,都換成相應的核函式。那麼從3最後求解的式子就變成了:

$\undersetw(\alpha)=\frac \sum_^y^y^\alpha_\alpha_k_-\sum_^\alpha_$,使得滿足(1)$\alpha_\geq 0,1 \leq i \leq n$,(2)$\sum_^\alpha_y^=0$

離群點處理

在實際問題中,可能樣本點並不是能夠完全分成兩類(比如有可能有幾個正樣本在負樣本中間,或者相反),那這樣豈不是有可能找不到超平面了?為了處理這個問題,我們將求解問題轉換一下:$min_$ $\frac||w||^+c\sum_^\xi _$,使得$y^(w^x^+b)\geq 1-\xi _ ,1 \leq i \leq n$

那麼對應的拉格朗日函式為:$l(w,b,\xi,\alpha,r)=\frac||w||^+c\sum_^\xi _-\sum_^\alpha_[y^(w^x^+b)-1+\xi_]-\sum_^r_\xi_$

同樣的,其對$w,b,\xi$的導數為0,然後化簡,最後得到的問題為:

$\undersetw(\alpha)=\frac \sum_^y^y^\alpha_\alpha_k_-\sum_^\alpha_$,使得滿足(1)$0 \leq \alpha_\leq c,1 \leq i \leq n$,(2)$\sum_^\alpha_y^=0$

同時有:

(1)$\alpha_=0\rightarrow y^(w^x^+b)\geq 1$,正常樣本

(2)$\alpha_=c\rightarrow y^(w^x^+b)\leq 1$,異常樣本,在支援向量之間

(3)$0< \alpha_< c\rightarrow y^(w^x^+b)= 1$,支援向量

SVM學習筆記4 核函式和離群點的處理

核函式 在svm裡,核函式是這樣定義的。核函式是乙個n n 樣本個數 的矩陣,其中 k exp frac x 也就是說,當兩個向量越接近時,它們的核函式越接近於1 越遠時,核函式越接近於0。在svm裡,使用 k 而不使用 x x 應該是就像神經網路或者邏輯回歸裡的啟用函式吧。反正,以後出現兩個樣本內...

機器學習 SVM(核函式 高斯核函式RBF)

1 格式 2 多項式核函式 對傳入的樣本資料點新增多項式項 新的樣本資料點進行點乘,返回點乘結果 一維特徵的樣本,兩種型別,分布如圖,線性不可分 為樣本新增乙個特徵 x2 使得樣本在二維平面內分布,此時樣本在 x 軸公升的分布位置不變 如圖,可以線性可分 3 優點 特點 一般將原始樣本變形,通常是將...

機器學習 SVM(3)核函式

更詳細的講解可以參考原部落格。1 為什麼引入核函式呢?為了回答這個問題,我們先來說明什麼是線性不可分資料。如下左圖所示,如果資料能用一條直線或乙個超平面分開的資料,就是線性不可分資料。那麼什麼是線性不可分資料呢?如下右圖所示,我們無法用一條直線或乙個超平面分開的資料。很不幸的是我們之前介紹的svm是...