核密度估計原理

最近在讀wek的**的時候，發現weka的***** bayes分類器中有使用到核概率密度估計，想了一下核概率密度估計原理。

核密度估計是在概率論中用來估計未知的密度函式，屬於非引數檢驗方法之一，由rosenblatt (1955)和emanuel parzen(1962)提出，又名parzen窗（parzen window）。

假設我們有n個數x1-xn,我們要計算某乙個數x的概率密度有多大。核密度估計的方法是這樣的：

其中n(x,z)為正太分布的概率密度函式,z為設定的引數。

（1）基本原理:

核密度估計的原理其實是很簡單的。在我們對某一事物的概率分布的情況下。如果某乙個數在觀察**現了，我們可以認為這個數的概率密度很比大，和這個數比較近的數的概率密度也會比較大，而那些離這個數遠的數的概率密度會比較小。基於這種想法，針對觀察中的第乙個數，我們都可以f(x-xi)去擬合我們想象中的那個遠小近大概率密度。當然其實也可以用其他對稱的函式。針對每乙個觀察**現的數擬合出多個概率密度分布函式之後，取平均。如果某些數是比較重要，某些數反之，則可以取加權平均。

（2）存在的問題：

我感覺這種方法會存在乙個問題。

邊界問題。比如滿足[0,1]之間的均勻分布的數有1000w個，人工大致已經可以看出概率分布。但用

核密度估計

估計出來的結果會非常奇怪。[-1,0]和[1,2]之間的數的概率密度不會被估計為0。主要原因是因為有邊界的影響。具體怎麼影響，我還沒有想或者看明白。

我也是初看核密度估計，有不對的地方，歡迎大牛拍磚。

核密度估計原理

核模型（核密度估計）

十三 Sklearn核密度估計

Epanechnikov核密度估計應用於目標檢測

核密度估計原理

核模型（核密度估計）

十三 Sklearn核密度估計

Epanechnikov核密度估計應用於目標檢測

相關推薦