機器學習 02 樸素貝葉斯

2021-10-05 09:47:28 字數 2401 閱讀 9623

理論部分

樸素貝葉斯基本原理

樸素貝葉斯的三種形式

極值問題情況下的每個類的分類概率

下溢問題如何解決

零概率問題如何解決

sklearn引數詳解

生成模型:在概率統計理論中, 生成模型是指能夠隨機生成觀測資料的模型,尤其是在給定某些隱含引數的條件下。它給觀測值和標註資料序列指定乙個聯合概率分布。在機器學習中,生成模型可以用來直接對資料建模(例如根據某個變數的概率密度函式進行資料取樣),也可以用來建立變數間的條件概率分布。條件概率分布可以由生成模型根據貝葉斯定理形成。常見的基於生成模型演算法有高斯混合模型和其他混合模型、隱馬爾可夫模型、隨機上下文無關文法、樸素貝葉斯分類器、aode分類器、潛在狄利克雷分配模型、受限玻爾茲曼機。

判別模型: 在機器學習領域判別模型是一種對未知資料 y 與已知資料 x 之間關係進行建模的方法。判別模型是一種基於概率理論的方法。已知輸入變數 x ,判別模型通過構建條件概率分布 p(y|x) ** y 。常見的基於判別模型演算法有邏輯回歸、線性回歸、支援向量機、提公升方法、條件隨機場、人工神經網路、隨機森林、感知器。

生成模型是所有變數的全概率模型,而判別模型是在給定觀測變數值前提下目標變數條件概率模型。因此生成模型能夠用於模擬(即生成)模型中任意變數的分布情況,而判別模型只能根據觀測變數得到目標變數的取樣。判別模型不對觀測變數的分布建模,因此它不能夠表達觀測變數與目標變數之間更複雜的關係。因此,生成模型更適用於無監督的任務,如分類和聚類。

先驗概率: 在貝葉斯統計中,某一不確定量 p 的先驗概率分布是在考慮"觀測資料"前,能表達 p 不確定性的概率分布。它旨在描述這個不確定量的不確定程度,而不是這個不確定量的隨機性。這個不確定量可以是乙個引數,或者是乙個隱含變數。

條件概率: 就是事件a在事件b發生的條件下發生的概率。條件概率表示為p(a|b),讀作「a在b發生的條件下發生的概率」。

後驗概率: 在貝葉斯統計中,乙個隨機事件或者乙個不確定事件的後驗概率是在考慮和給出相關證據或資料後所得到的條件概率。同樣,後驗概率分布是乙個未知量(視為隨機變數)基於試驗和調查後得到的概率分布。「後驗」在本文中代表考慮了被測試事件的相關證據。

條件概率,就是在條件為瓜的顏色是青綠的情況下,瓜是好瓜的概率

先驗概率,就是常識、經驗、統計學所透露出的「因」的概率,即瓜的顏色是青綠的概率。

後驗概率,就是在知道「果」之後,去推測「因」的概率,也就是說,如果已經知道瓜是好瓜,那麼瓜的顏色是青綠的概率是多少。後驗和先驗的關係就需要運用貝葉斯決策理論來求解。

貝葉斯決策論是概率框架下實施決策的基本方法,對分類任務來說,在所有相關概率都已知的理想情形下,貝葉斯決策論考慮如何基於這些概率和誤判損失來選擇最優的類別標記。

假設有n種可能標記, λijλij是將類cjcj誤分類為cici所產生的損失,基於後驗概率p(ci|x)p(ci|x) 可以獲得樣本x分類為cici所產生的期望損失 ,即在樣本x上的條件風險:

r(ci|x)=∑j=1nλijp(cj|x)r(ci|x)=∑j=1nλijp(cj|x)

我們的任務是尋找乙個判定準則 h:x→yh:x→y以最小化總體風險

r(h)=?x[r(h((x))|(x))]

顯然,對每個樣本x,若h能最小化條件風險 r(h((x))|(x))r(h((x))|(x)),則總體風險r(h)也將被最小化。這就產生了貝葉斯判定準則:為最小化總體風險,只需要在每個樣本上選擇那個能使條件風險r(c|x)最小的類別標記,即:

此時,h稱作貝葉斯最有分類器

,與之對應的總體風險r(h )稱為貝葉斯風險,1-r(h*)反映了分類器能達到的最好效能,即機器學習所產生的模型精度的上限。

具體來說,若目標是最小化分類錯誤率(對應0/1損失),則λijλij可以用0/1損失改寫,得到條件風險和最小化分類錯誤率的最優分類器分別為:

r(c|x)=1−p(c|x)r(c|x)=1−p(c|x)

h∗(x)=argmaxc∈p(c|x)h∗(x)=argmaxc∈yp(c|x)

即對每個樣本x,選擇能使後驗概率p(c|x)最大的類別標識。

獲得後驗概率的兩種方法:

判別式模型:給定x,可以通過直接建模p(c|x)來**c。

生成模型:先對聯合分布p(x, c)建模,然後再有此獲得p(c|x)。

利用sklearn解決聚類問題

klearn.*****_bayes.gaussiannb,這裡採用gaussiannb 高斯樸素貝葉斯,實驗的初步結果為

0.9666666666666667
參考:

機器學習_周志華_筆記7/

機器學習 樸素貝葉斯 02

心得體會 1交叉驗證 從訓練的資料裡隨機抽取作為測試集 4 6樸素貝葉斯過濾垃圾郵件 樸素貝葉斯交叉驗證 deftextparse bigstring import re listoftokens re.split w bigstring return tok.lower for tok in li...

機器學習 樸素貝葉斯

樸素貝葉斯原理 1.貝葉斯公式 2.樸素貝葉斯的模型 3.後驗概率最大化的含義 4.樸素貝葉斯的引數估計 4.1.特徵是離散值 假設符合多項式分布 4.2.特徵是稀疏的離散值 假設符合伯努利分布 4.3.特徵是連續值 假設符合正態分佈 5.樸素貝葉斯演算法過程 6.樸素貝葉斯演算法小結 scikit...

機器學習 樸素貝葉斯 例子

一 學習樸素貝葉斯之前先了解一下 條件概率下 貝葉斯公式 1 舉例是兩個工具機m1和m2 用例生產扳手機器 生產扳手 個數 mach1 30mach2 20不合格佔1 defective 機器 次品分布比例 mach1 50 mach2 50 2 問題 mach2生產的不合格產品的概率是多少?p m...