機器學習筆記支援向量機演算法

基本思想：定義在特徵空間上的間隔最大的線性分類器。主要學習策略為使得間隔最大化，可形式化為乙個求解二次規劃的問題，等價於正則化的合頁損失函式的最小化問題。

分類：線性：線性可分支援向量機、線性支援向量機；

非線性：非線性支援向量機

當訓練資料線性可分時，通過硬間隔最大化，學習乙個線性的分類器，即線性可分支援向量機；

當訓練資料近似線性可分時，通過軟間隔最大化，學習乙個線性的分類器，即線性支援向量機；

當訓練資料線性不可分時，通過使用核技巧及軟間隔最大化，學習非線性支援向量機。

線性可分支援向量機：

目標：求解能夠正確劃分訓練資料集，且幾何間隔最大的分離超平面。這裡的幾何間隔最大化又稱為硬間隔最大化。

輸入：訓練集t；

輸出：分離超平面和分類決策函式；

演算法重點：構造並且求解約束最優化問題；

線性支援向量機：

與線性可分支援向量機不同，樣本資料近似線性可分，所以樣本不能完全滿足線性約束條件，所以需要對每個樣本點引進乙個鬆弛變數，修改最優化目標的約束。此時對應於硬間隔最大化，變為軟間隔最大化，其餘求解思想基本相同。

非線性支援向量機：

線性切割不再適用，引入核函式，其餘求解方法與上述方法相同。常用的核函式有：多項式核函式、高斯核函式。

支援向量回歸：

支援向量機不僅可以解決分類的問題，還可以解決回歸的問題。基本思想是允許f(x)與y之間存在一定誤差，未超過則認為**準確，但超過一定誤差標準記為偏差。偏差損失大小，為支援向量回歸問題的損失函式，令其最小化，是回歸學習的主要切入口。

svm的優缺點：

優點：本質上是非線性方法，樣本量小時，容易抓住資料和特徵之間的非線性關係，即較能解決非線性問題；

可以避免神經網路結果選擇和區域性極小點問題；

可以提高泛化效能；

可以解決高維問題；

缺點：對缺失資料敏感；

對非線性問題沒有通用的解決方案，需謹慎選擇核函式；

計算複雜度高，主流演算法複雜度o(n^2);

存在兩個對結果影響相當大的超引數（如果用rbf核，是核函式的引數gamma、懲罰項c），超引數無法通過概率方法求解，只能通過窮舉試驗來求出，計算時間高於不少類似的非線性分類器。

機器學習筆記 支援向量機演算法