樸素貝葉斯

2022-07-18 06:24:11 字數 2240 閱讀 2807

對於條件概率,我們有:

表示在b已知的情況下(條件)發生a的概率。

貝葉斯定理聯絡先驗概率和後驗概率:

p(a|b)表示在b發生的情況下a發生的概率。

p(a)指先驗概率;p(b|a)為似然函式,形式同條件概率;p(b)也為先驗概率,可通過全概率公式計算得到;p(a|b)為後驗概率。

不同:①先驗概率:事件發生前的預判概率。可以是基於歷史資料的統計,可以由背景常識得出,也可以是人的主觀觀點給出。一般都是單獨事件概率。

②後驗概率:事件發生後求的反向條件概率。或者說,基於先驗概率求得的反向條件概率。

③似然函式:是根據已知結果去推測固有性質的可能性(likelihood),是對固有性質的擬合程度。

在分類問題中,其可記做:

p(ci|x)表示在給出資料x的條件下,其屬於ci的概率。 p(x|ci)可稱為類條件概率密度函式,p(x)可稱為全概率密度,通過全概率公式得到:

基於貝葉斯準則,

為資料x的分類。由於全概率對於所有的p(ci|x)都相同,因此只需要比較分子的大小即可。

即x表示某個資料的n維特徵,p(x|ci)可以把x中的特徵展開表示:

該假設為x的所有特徵都相互獨立,則:

對於離散型的特徵,通常需要求其每乙個取值的概率。而對於連續型特徵,則將其離散化。

約定:樣本數為m,ci類別的樣本數為mi,總類別個數為c。

第i個樣本的特徵總數為αi,其第j個特徵取值情況有βj種。

全部不同特徵共a種,第j種特徵xj取值情況共bj種,其第k種取值記為bik。所有特徵不同取值情況總和記為b。

①適用資料型別

離散值。即對應的特徵為離散的。比如性別(取值為男、女)、學歷(小學、高中、本科、專科、碩士、博士、博士後)。

②模型介紹

該模型在一些書中也稱為詞袋模型。需要統計每個特徵取值的樣本數目。

在多項式模型中,通常含有平滑項σ,有:

表示在類別ci中,特徵xj取值為bk的概率; mi表示類別為ci的樣本數;

表示類別為ci的樣本中,特徵xj取值為bjk的樣本數目;b表示所有特徵的不同取值的總和;c為總類別個數。

σ=0時,表示不做平滑處理。

σ=1時,稱為拉普拉斯平滑(laplace平滑)。能夠防止

為0而導致的後驗概率為0的情況。

0對於文字分類,則有:

mi表示類別為ci的詞向量中所有出現單詞的總和;

表示類別為ci的所有詞向量中單詞xj出現的次數。

對於所**的某個詞向量,其可能並未包含所有詞彙表的詞,則只需將其出現的xj來計算

。①適用資料型別

離散值。

②模型介紹

該模型在有些書中也被稱為詞集模型。其與多項式模型類似,不過該模型中,每個特徵取值只能為1或0,表示出現與否(對於文字分類而言,1表示某個單詞出現在該文字中,0則表示沒有出現),其全部特徵取自全域性。當然對於特徵取值大於2的情況,需要自定義一定的閾值來判斷0和1的取值情況。

①適用資料型別

連續型。比如身高等。

②模型介紹

高斯模型假設每一維特徵都服從高斯分布(正態分佈):

其中,μ表示類別為ci、特徵xj的均值;

σ2為類別為ci、特徵xj的方差。

bjk是連續型變數xj的某乙個取值。

因此,只需對於樣本資料得到每個類別中每個連續型特徵的均值和方差,也就是得到正態分佈的密度函式。有了密度函式,就可以把某個**資料的該連續性特徵的值代入,算出某一點的密度函式的值。

有時會遇到下溢位問題,即

過小,導致所有過小的數的乘積結果由於捨入為0。這時可以使用取對數的方法避免下溢位或浮點捨入導致的錯誤:

最後選取

值最大的所對應類別即為**類別。

樸素貝葉斯

樸素貝葉斯演算法是一種基於概率統計的分類方法,它主要利用貝葉斯公式對樣本事件求概率,通過概率進行分類。以下先對貝葉斯公式做個了解。對於事件a b,若p b 0,則事件a在事件b發生的條件下發生的概率為 p a b p a b p b 將條件概率稍作轉化即可得到貝葉斯公式如下 p a b p b a ...

樸素貝葉斯

1.準備資料 從文字中構建詞向量 2.訓練演算法 從詞向量計算概率 3.測試演算法 儲存為 bayes.py 檔案 參考 coding utf 8 from numpy import 文字轉化為詞向量 def loaddataset postinglist my dog has flea probl...

樸素貝葉斯

機器學習是將資料轉化為決策面的過程 scikit learn縮寫為sklearn 訓練乙個分類器,學習之後 其處理的準確性 def nbaccuracy features train,labels train,features test,labels test from sklearn.bayes ...