支援向量:支撐起超平面的樣本點,裡分界線最近
邏輯回歸的代價函式
每個單獨的訓練樣本 一起為邏輯回歸總體目標做貢獻
兩條線段
在數學上的定義:
對於邏輯回歸來說(》:遠大於)
每個單獨的訓練樣本 一起為邏輯回歸總體目標做貢獻(下面考慮單個樣本的情況):?
y=1 就是標籤為1,代價函式就是左邊的圖形,想要代價函式值越小的話,z就得很大(z足夠大的時候,代價函式值近似0)
這裡的log是以e為底
構建支援向量機,從這個代價函式開始,進行少量修改,變成兩個線段組成的『曲線』(洋紅色),形狀與原來邏輯回歸的代價函式類似
其效果也類似,但是這樣會使支援向量機擁有計算上的優勢,並且使優化問題變得簡單,更容易解決。
這樣就得到兩個新函式(洋紅色):cost_1(z),cost_2(z)。然後帶入原來的邏輯回歸函式
λ和c都是為了控制權衡:更多的適應訓練集還是更多的去保持正則化引數足夠小
邏輯回歸使用上面的,svm使用下面的
最小化最終得到的函式,就得到了svm學習得到的引數θ。
與邏輯回歸不同的是,svm並不會輸出概率,而是通過優化這個代價函式得到的乙個引數θ,然後進行直接的**(0,1)
『間距』初體驗(比一般的邏輯回歸有更大的『間距』)
當把c值設定很大的時候,最小化整個代價函式,會使第一項值近似0(側重於擬合引數),有異常點時候會得到下圖的洋紅界限
當c值設定不是很大的時候,有異常點時候會得到下圖的黑色界限(更合理,間隔更大)
向量內積的性質
p就是向量v在向量u上投影的長度(是乙個實數,有符號【正或者負】)
丨丨u 丨丨也是乙個實數
之前的優化目標函式(把c設定的很大的情況下)
引數向量θ與決策邊界垂直。
希望正樣本和負樣本投影到θ的值足夠大(決策邊界距離周圍得是大間距)
通過讓p1 p2 p3 變大(最大化p的範數【訓練樣本到決策邊界的距離】),svm最終就會得到乙個較小的θ的範數丨丨)
θ_0=0,決策邊界通過原點
此模型對應著c值很大
支援向量機(SVM)
簡介 術語 支援向量機 svm 是乙個類分類器,正式的定義是乙個能夠將不同類樣本在樣本空間分隔的超平面。換句話說,給定一些標記 label 好的訓練樣本 監督式學習 svm演算法輸出乙個最優化的分隔超平面。首先我們假定有乙個未知的欲分類的集合,可以進行分割,但是我們不知道分割的函式 超平面,也叫真實...
支援向量機SVM
支援向量機svm support vector machine 是機器學習領域的乙個有監督的學習模型。一 簡介 支援向量機建立在統計學習理論的基礎之上。統計學習理論 statistical learning theory簡稱slt 是一種處理小樣本的統計理論 為研究有限樣本情況下的統計模式識別和更廣...
SVM支援向量機
在機器學習領域,很多時候會用到分類的一些演算法,例如knn,貝葉斯。我們可以把分類的樣本簡單除暴的分為兩種型別。線性可分和非線性可分。可以使用乙個非常簡單的例子來解釋什麼是線性可分,什麼是線性不可分。a 線性可分的2類樣本 b 非線性可分的2類樣 已知乙個線性可分的資料集,其中x表示乙個n維向量,當...