機器學習基礎 樸素貝葉斯分類

2021-10-01 02:47:25 字數 1647 閱讀 3270

可以將公式改寫為

c表示乙個分類,f表示屬性對應的資料字段

這裡舉個例子,

c代表蘋果,f代表紅色

p(蘋果|紅色)=p(紅色|蘋果)xp(蘋果)/p(紅色)

通過蘋果是紅色的條件概率可以得到紅色是蘋果的條件概率

通過先驗概率可以算出後驗概率

乙個果子是蘋果的概率為0.3 p(c)=0.3

乙個果子是紅色的概率為0.2 p(f)=0.2

蘋果是紅色的概率為0.7  p(f|c)=0.5

根據公式可以算出紅色的果子是蘋果的概率為 p(a|b)=0.5*0.3/0.2 = 0.75

上邊看了貝葉斯定理,我們將貝葉斯定理擴充套件到多種型別,多種屬性上邊

統計的分類有:蘋果,甜橙,西瓜

統計的屬性有:形狀,外觀顏色,外觀紋理,重量,握感,口感

通過上變的表,可以得到,每種型別的每種屬性對應的概率,如下:

參考貝葉斯定理,

將紅色的屬性擴充套件到其他的屬性,可以得出以下公式

對比上邊蘋果的例子,fi是紅色 fj是甜味,這裡列舉所有屬性聯合起來是蘋果的概率

計算的過程中,對於統計的概率為0的數值,一般會給乙個小於最小值的極小值用來計算,這個叫平滑

兩種屬性下,計算是圓形,口感是甜的

不同種類的概率:

是蘋果的概率:

是甜橙的概率:

是西瓜的概率:

甜橙的概率最大,所以這個水果最大可能是甜橙;

概率的乘積可能會非常小,可以使用數學手法進行轉換,比如取log

準備資料轉換為計算機所能理解的資料,訓練樣本;

建立模型基於樣本訓練,獲取所有水果的概率

分類新資料對於乙個新的資料,根據已有的模型進行分類,這個過程也稱為**

與knn最鄰近對比:樸素貝葉斯需要更多的時間進行模型訓練,,但是對新資料**時,效果更好,時間更短

與決策樹對比:不能提供易於人理解的決策,但可以提供多種決策,支援模糊分類

svm支援向量積:不能直接支援連續值的輸入,案例中將連續值轉換成了離散值便於樸素貝葉斯處理

適用的場景:屬性大部分是離散的,需要支援模糊分類,需要支援快速實時的分類

樸素貝葉斯分類

1 貝葉斯分類是一類分類演算法的總稱,這類演算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。2 樸素貝葉斯的思想基礎是這樣的 對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬於哪個類別。通俗來說,就好比這麼個道理,你在街上看到乙個黑人,我問你你猜這哥們 來的,...

樸素貝葉斯分類

摘自寫在公司內部的wiki 要解決的問題 表中增加欄位classification,有四個取值 0 初始值,未分類 1 positive 2 normal 99 negative review submit前,由樸素貝葉斯分類器決定該條review的flag屬於negative還是positive ...

分類 樸素貝葉斯

原始的貝葉斯公式為 p b a p a b p a p a b p b p a 1 在分類問題中,y為類別,x為樣本特徵,則已知待 的樣本特徵 x 它為類別yi 的概率為 p yi x p x yi p y i p x p yi jp xj y i p x 2 p yi 類別為y i的樣本 數總樣本...