貝葉斯理論在機器學習中的應用

2022-08-05 18:33:13 字數 1808 閱讀 2300

貝葉斯理論應用於機器學習方面產生了多種不同的方法和多個定理,會讓人有些混淆。主要有最大後驗概率,極大似然估計(mle),樸素貝葉斯分類器,還有一個最小描述長度準則。

貝葉斯理論是基於概率的理論,設\(\lambda_\)是將實為\(c_j\)的樣本標記為\(c_i\)的損失,則將樣本\(x\)標記為\(c_i\)的期望損失是

\[r(c_i|x)=\sum_^p(c_j|x)} \hspace(1)

$$當$$\lambda_=\begin 0,&\text \\ 1,&\text \end \hspace(2)

$$有\]

r(c|x)=1-p(c|x) \hspace(3)

\[  所以對於樣本$x$,我們要選擇使期望損失最小的標記$c$,即$minr(c|x)$,等價於$maxp(c|x)$,這就是最大後驗概率的含義,也是貝葉斯決策論。

根據貝葉斯定理,

$$p(c|x)=\frac \hspace(4)

$$  因此,估計$p(c|x)$的問題就轉換為如何基於訓練資料$d$來估計先驗概率$p(c)$和似然概率$p(x|c)$。一般來說,先驗概率$p(c)$可通過各類樣本出現的頻率來估計,而似然概率$p(x|c)$由於涉及關於$x$所有屬性的聯合概率,難以直接根據樣本出現的頻率進行估計。

假設$p(x|c)$具有確定的形式並且被引數向量$\theta_c$唯一確定,我們可以將$p(x|c)$記為$p(x|\theta_c)$。對於引數$\theta_c$的估計,統計學界有兩個不同的學派,頻率主義認為引數雖然未知,但卻是客觀存在的固定值,因此,可通過優化似然函式等準則確定。令$d_c$表示訓練集$d$中第$c$類樣本組成的集合,假設這些樣本是獨立同分布的(注意這裡是樣本),則引數$\theta_c$對於資料集$d$的似然是

$$p(d_c|\theta_c)=\prod_p(x|\theta_c) \hspace(5)

$$對$\theta_c$進行極大似然估計,就是去尋找能最大化似然$p(d_c|\theta_c)$的引數值$\widehat_c$,即

$$\widehat_c=\mathopmax}_p(d_c|\theta_c) \hspace(6)

$$。這就是極大似然估計(mle)的方法,這種估計結果的準確性嚴重依賴於所假設的概率分佈形式是否符合潛在的真實資料分佈。

除頻率學派外的另一個學派就是貝葉斯學派,貝葉斯學派認為引數是未觀察到的隨機變數,其本身也可能有分佈,因此,可假定引數服從一個先驗分佈,然後基於觀測到的資料來計算引數的後驗分佈,由此產生了樸素貝葉斯分類器。

樸素貝葉斯分類器假設對已知類別,所有屬性相互獨立(注意是屬性),換言之,假設每個屬性獨立地對分類結果發生影響。於是,

$$p(c|x)=\frac=\frac\prod^d_p(x_i|c) \hspace(7)

$$其中$d$為屬性數目,$x_i$為$x$在第$i$個屬性上的取值。由於對於所有類別來說$p(x)$相同,因此有

$$h_(x)=\mathopmax}_ p(c)\prod^d_p(x_i|c) \hspace(8)

$$這就是樸素貝葉斯分類器的表示式。

當把“屬性獨立”條件放寬,適當考慮一部分屬性鍵的相互以來資訊時,就得到了半樸素貝葉斯分類器。

貝葉斯網藉助有向無環圖來刻畫屬性之間依賴關係,並使用條件概率表來描述屬性的聯合概率分佈,最小描述長度準則(mdl)就是指找到一個能以最短編碼長度描述訓練資料的模型,這裡的模型就是指貝葉斯網。\]