《機器學習中的數學》 理解SVM原理第一層

2021-10-06 03:39:03 字數 2763 閱讀 6832

支援向量機,因其英文名為suport vector machine,故簡稱svm,通俗的來講,它是一種二分類模型,其基本模型定義為:特徵空間上的間隔最大的線性分類器,其學習策略是:間隔最大化,最終可以轉化為乙個凸二次規劃問題的求解。

理解svm,首要問題是理解:線性分類器。

給定一些資料,它們分屬於兩個不同的類,現在要找到乙個線性分類器把這些資料分成兩類。

如果用x

xx表示資料點,用y

yy表示類別(y可以

取1或者

−1,分

別代表了

正負樣本

y可以取1或者-1,分別代表了正負樣本

y可以取1或

者−1,

分別代表

了正負樣

本),乙個線性分類器的學習目標是在n維空間中找到乙個超平面(hyper plane),這個超平面的方程可以表示為(其中w,b是要學習的引數,w抽象為表示n維特徵(x向量)上的權重,b為乙個偏置值):

w tx

+b=0

w^tx+b=0

wtx+b=

0關於y

yy的值為什麼取1和−

11和-1

1和−1

,此問題**於logistic回歸。

logistic回歸目的是從特徵中學習出乙個0/1

0/10/

1分類模型,而這個模型是將特徵的線性組合作為自變數,由於自變數的取值範圍是負無窮到正無窮。因此,使用logistic函式(sigmoid函式)將自變數對映到(0,1)上,對映後的值 被認為是屬於y=1

y=1y=

1的概率。

假設函式:

h θ(

x)=g

(θtx

)=11

+e−θ

txh_\theta(x)=g(\theta^tx)=\frac}

hθ​(x)

=g(θ

tx)=

1+e−

θtx1

​其中x是n維向量,函式g就是logisitic函式,θ為(

θ0,θ

1,θ2

,...

,θn)

\theta為(\theta_0,\theta_1, \theta_2, ...,\theta_n)

θ為(θ0​

,θ1​

,θ2​

,...

,θn​

)是一組對特徵x

xx的引數。

其中g (z

可以看到,將x

xx的所有值都對映到了(0−

1)(0-1)

(0−1

)之間。

sigmoid函式增加了線性模型的魯棒性,利用概率的形式避免了難以準確分類的情況。

接下來,嘗試把logistic回歸做乙個變型,首先將標籤y=0變為y=-1,然後將θtx

=θ0+

θ1x1

+...

+θnx

n\theta^tx=\theta_0+\theta_1 x_1+...+\theta_n x_n

θtx=θ0

​+θ1

​x1​

+...

+θn​

xn​中的θ

0\theta_0

θ0​替換為b

bb,將後面的θ1x

1+..

.+θn

xn\theta_1 x_1+...+\theta_n x_n

θ1​x1​

+...

+θn​

xn​替換成wtx

w^tx

wtx,如此就有了θtx

=wtx

+b\theta^tx=w^tx+b

θtx=wt

x+b,因此除了y的變化,線性分類器和logistic回歸形式表示沒有區別。

舉乙個簡單的例子作為引入:如圖所示,現有乙個二維平面,平面上有兩種不同的資料,假設這些資料的線性可分的,其中的超平面是一條直線。

這個超平面可以用分類函式f(x

)=wt

+bf(x)=w^t+b

f(x)=w

t+b表示,當f(x

)f(x)

f(x)

等於0時,x便位於超平面上,而f(x

)>

0f(x)>0

f(x)

>

0對應的點y=1

y=1y=

1,反之f(x

)<

0f(x)<0

f(x)

<

0的點y=−

1y=-1

y=−1

,如圖所示:

機器學習中的數學知識( )梯度下降數學理論

機器學習中的數學知識 微積分 f a limx 0f a h f a h常見的函式的導數 x a axa 1 e x ex ax l n a ax ln x 1x dsin x dx c os x dc os x dx sin x 導數法則 f g f g f g f g fg f g f g fg...

PCA及白化的數學理解

pca principal components analysis 是一種降維和去除相關性的方法,它通過方差來評價特徵的價值,認為方差大的特徵包含資訊多,應予以保留。首先對每一維特徵0均值處理,求得特徵的協方差矩陣a,那麼 在分析方差時,所以通過協方差矩陣特徵值大小來看方差大小。所以將協方差矩陣相似...

機器學習 如何理解svm的損失函式

是用來衡量乙個 器在對輸入資料進行分類 時的 壞。損失值越小,分類器的效果越好,越能反映輸入資料與輸出類別標籤的關係 雖然我們的模型有時候會過擬合 這是由於訓練資料被過度擬合,導致我們的模型失去了泛化能力 相反,損失值越大,我們需要花更多的精力來提公升模型的準確率。就引數化學習而言,這涉及到調整引數...