核方法原理

2021-06-20 18:39:07 字數 1596 閱讀 9879

1.無力的線性分類器

一般情況下,我們考慮構造乙個線性分類器來解決問題。但是實際中,線性分類器的效果達不到要求,因為大部分資料都不是線性可分的,如下面這幅圖。一種改進的方法是把多個弱的線性分類器組合得到乙個強分類器,如決策樹,booting方法;另乙個種方法就是接下來要說的高維投影。

2.高維線性可分

如果某個分類問題線性不可分,那麼我們可以考慮把樣本投影到非線性的高維空間上,從而實現高維可分。r(低維)->f(高維)。如下圖。

3.高維計算的維數災難

上面的對映會大大增加計算複雜度,因為投影需要計算複雜度,維數增加後再分類也要增加計算複雜度。

4.巧妙的核技巧(kernel trick)

有人發現了一些函式的特性,設為k(x,y)。有人發現,k(x,y)=,也就是低維的函式(k(x,y)),可以得到高維空間的內積()。而如果內積是我們投影到高維後,構造分類器所需要的主要計算,顯然,我們只要在低維空間計算k(x,y)。通常情況下,k的計算複雜度會大大小於高維內積。

以簡單的線性核函式為例子闡述如下:

而考慮高維點積如下:

即核函式結果等於高維內積。

在考慮其時間複雜度:

核函式第一步的計算為n為向量點積後得到實數相乘,複雜度為o(n)。

高維投影後,兩個n^2的向量點積,時間複雜度為o(n^2)。

也就是說,我們通過核函式,用低維的計算量得到了高維的結果,沒有增加計算複雜度的同時,得到了性質更好的高維投影。也就是kernel trick。

5.廣泛存在的內積運算

通過上面我們可以看出,只要涉及到內積運算,我們都能夠運用核函式替代來得到高維投影的內積。而內積廣泛存在於各種演算法當中,最典型的有svm,knn,線性回歸,聚類等。一些使用最小平方誤差作為目標函式的方法也可以擴充套件為核最小平方誤差。

6.常見的核函式

mercer定理

那麼,怎樣的函式,得到的結果會是原向量的高維內積呢?如下推導核函式的mercer定理。

對於給定的任意向量集合:

核矩陣定義為任意兩個向量核函式組成的矩陣,也就是:

對於任意的矩陣z,根據內積的非負性,我們有:

也就是說,k如果是核函式,那麼對於任意的樣本集合,得到的核矩陣為半正定矩陣。

被證明可用的常見核函式如下

核方法的好處

2.      通過巧妙地引進,避免了維數災難,沒有增加計算複雜度。

核密度估計原理

最近在讀wek的 的時候,發現weka的 bayes分類器中有使用到核概率密度估計,想了一下核概率密度估計原理。核密度估計是在概率論中用來估計未知的密度函式,屬於非引數檢驗方法之一,由rosenblatt 1955 和emanuel parzen 1962 提出,又名parzen窗 parzen w...

核光滑方法 二

昨天聽了實驗室師兄的報告,會後詢問他看es l 的事宜。師兄說你不實現書中的演算法就是偷懶,想想確實是這樣。多維空間的表示式 如下 mi n x 0 i 1nk x0 xi yi b xi t x0 2k x0,x d x x0 是歐幾里得範數,也就是 x x1 2 xp 2 書中說分數會趨向於 1...

核方法的主要思想

2012年07月05日 16 31 02 閱讀數 56376 本文對核方法 kernel method 進行簡要的介紹。核方法的主要思想是基於這樣乙個假設 在低維空間中不能線性分割的點集,通過轉化為高維空間中的點集時,很有可能變為線性可分的 例如下圖 左圖的兩類資料要想在一維空間上線性分開是不可能的...