模式識別貝葉斯分類器的訓練

貝葉斯分類決策規則：依據計算得到的後驗概率對樣本進行歸類

條件：先驗概率和類條件概率已知。

因此只要知道

p (w

j)p(w_j)

p(wj)

和p (x

∣wj)

p(x|w_j)

p(x∣wj

)就可以設計出貝葉斯分類器，而p(w

j)p(w_j)

p(wj)

和p (x

∣wj)

p(x|w_j)

p(x∣wj

)並不能預先知道，需要用樣本集中的資訊去進行估計，所以貝葉斯分類器的訓練就是通過樣本集中去估計p(w

j)p(w_j)

p(wj)

和p (x

∣wj)

p(x|w_j)

p(x∣wj

)。先驗概率p(w

j)p(w_j)

p(wj)

不是乙個分布函式，只是乙個值，表達了樣本空間中，各個樣本所佔的比例。

當樣本集數量足夠多，且來自於樣本空間的隨機選取時，可以用比例來估計p(w

j)p(w_j)

p(wj)

（大數定理）

如果不是隨機抽樣的，那麼就不能用佔比來估計p(w

j)p(w_j)

p(wj)

，這時可以假設p(w

j)p(w_j)

p(wj)

為1

c\frac

c1，c為樣本類數。

把p (w

j)p(w_j)

p(wj)

不看做乙個未知的常量，而看做乙個概率分布，可以任意設定p(w

j)p(w_j)

p(wj)

的初值，在已知類條件概率的情況下，計算訓練集中屬於某乙個類的所有樣本的後驗概率，然後將其數學期望來更新先驗概率。

p (x

∣wj)

p(x|w_j)

p(x∣wj

)是乙個概率密度函式，需要與訓練集中樣本特徵的分布情況進行估計，估計方法可以分為

引數估計是先假設樣本的概率密度具有某種確定的形式，比如正態分佈、二項分布，然後用現有的樣本，對分布的引數進行估計。常用的如下兩種

極大似然估計

把用於估計的所有樣本做為結果，把概率分布的引數作為條件，最有可能抽取到已知樣本集中所有樣本的概率分布引數，就是極大似然的引數，也就是我們能夠得到的最優引數的估計值。如採用極大似然估計來估計類條件概率需要滿足以下幾項基本條件

類條件概率的分布形式是已知的：θ

i\theta^i

θi訓練集中第i類的所有樣本：x

ix^i

xi訓練集中屬於第i

ii類的乙個樣本：xk∈

xix_k \in x^i

xk∈xi

樣本集x

ix^i

xi的θ

i\theta^i

θi似然函式：

以一維正態分佈為例

極大似然估計是把待估計的引數看做是確定性的未知量，然後根據樣本集的資料去求取該未知引數的最優估計值。

貝葉斯估計

把待估計引數看做是具有某種分布形式的隨機變數。通過對x

ix^i

xi類學習樣本的觀察，使概率密度分布p(x

i∣θi

)p(x^i|\theta^i)

p(xi∣θ

i)轉化為後驗概率p(θ

i∣xi

)p(\theta^i|x^i)

p(θi∣x

i)，再通過求取後驗概率的數學期望來獲得θ

i\theta^i

θi的估計值。

不假設類的概率密度分布，直接用樣本集中，直接用樣本集中的資訊，來估計樣本的概率分布情況，非引數估計一般得到的是乙個數值模型。當完成非引數估計後，可以通過數值計算來獲得任何乙個樣本在某乙個類別**現的類條件概率值。

模式識別貝葉斯分類器的訓練

模式識別貝葉斯分類器的C 實現

模式識別分類

模式識別（三）非線性分類器

模式識別 貝葉斯分類器的訓練

模式識別 貝葉斯分類器的C 實現

模式識別分類

模式識別（三）非線性分類器

相關推薦

模式識別貝葉斯分類器的訓練

模式識別貝葉斯分類器的C 實現