機器學習之樸素貝葉斯

2021-08-21 06:19:49 字數 1149 閱讀 9181

寫在前面:本文寫自初學時,若後續學習過程中有新的理解,將不定期進行更新;若文中敘述有誤,望不吝賜教,也將及時修改

貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。在理解樸素貝葉斯之前,需要對兩個數學概念進行介紹:先驗概率、後驗概率。

舉個例子:

如今正值夏季,我們常會去買西瓜解暑,那麼怎麼挑選西瓜才能保證是「好瓜」呢?(這也就是分類)

首先,我沒有任何「經驗知識」,例如色澤、根蒂、紋理等,那麼按照常理來說,市場上的西瓜是好瓜的概率大致是60%,那麼這個0.6就是先驗概率。我們就說p(好瓜)=0.6

也就是說,先驗概率不依附樣本資料,不受任何條件的影響。

之後,通過父輩口口相傳、網上檢索,自己腦海中形成了乙個如何判斷西瓜是好瓜的方法,以根蒂為例,若我們知道當乙個西瓜根蒂脫落時,其成熟的概率是75%,那麼通過根蒂的情況來判斷瓜的好壞就是後驗概率。我們就說p(好瓜|根蒂脫落)=0.75,這個概率的讀法是:在根蒂脫落的前提下,是好瓜的概率是0.75.

在了解先驗概率和後驗概率後,就可以再引申出聯合概率

還是以上述為例,p(好瓜,根蒂脫落)即聯合概率,表示是好瓜的同時其根蒂脫落的概率。

看過條件概率公式和貝葉斯公式的人應該熟悉這個公式:

同理因此可以得到p(ab)=p(a|b) * p(b) = p(b|a) * p(a)

左式即聯合概率,用西瓜來表示即:p(好瓜,根蒂脫落)=p(好瓜|根蒂脫落) * p(根蒂脫落) = p(根蒂脫落|好瓜) * p(好瓜)

結合乙隻西瓜只有好瓜和壞瓜兩種情況,再結合全概率公式

最後可以得到關於根蒂脫落的全概率公式:

p(根蒂脫落) = p(好瓜)p(根蒂脫落|好瓜) + p(壞瓜)p(根蒂脫落|壞瓜)

理解了前面這些概念之後就可以搬出下面的公式(a代表根蒂脫落,b為好瓜):

由於這裡的b代表瓜的好壞,若延伸到多分類任務,即b有n個狀態,則上式可寫為:

更一般的,用x代表特徵值,y代表待分類的類別,則上式又可寫為:

加粗體的a表示乙個向量,有多個特徵值,而:

代入上式,最後可得:

此即用特徵a來分類y的一般表示式

機器學習之樸素貝葉斯

樸素貝葉斯 1 樸素貝葉斯 2 一 高斯樸素貝葉斯 gaussiannb實現了高斯樸素貝葉斯分類演算法,設假設特徵的可能性是高斯的 p x i y 12 y 2exp xi y 22 y 2 p x i y frac exp frac p xi y 2 y2 exp 2 y2 xi y 2 1 引數...

機器學習 樸素貝葉斯

樸素貝葉斯原理 1.貝葉斯公式 2.樸素貝葉斯的模型 3.後驗概率最大化的含義 4.樸素貝葉斯的引數估計 4.1.特徵是離散值 假設符合多項式分布 4.2.特徵是稀疏的離散值 假設符合伯努利分布 4.3.特徵是連續值 假設符合正態分佈 5.樸素貝葉斯演算法過程 6.樸素貝葉斯演算法小結 scikit...

機器學習實戰之樸素貝葉斯

4.樸素貝葉斯的優缺點 優點 在資料較少的情況下仍然有效,可以處理多類別問題。缺點 對於輸入資料的準備方式較為敏感。適用資料型別 標稱型資料。5.使用python進行文字分類 5.1 準備資料 從文字中構建詞向量 我們將把文字看成單詞向量或者詞條向量。考慮出現在所有文件中的所有單詞,再決定將哪些詞納...