《模式分類》讀書筆記之一貝葉斯決策論

問題：設計乙個分類器來區分鱸魚和鮭魚（兩分類問題）。

具體而言，我們得找個方法來判斷下一條傳送帶上傳送過來的魚的類別。如果用$w$表示狀態類別，可設$w_$表示鱸魚，$w_$表示鮭魚。由於類別不確定，可設$w$是乙個由概率來描述的隨機變數。

首先，可以根據已知資訊假定下一條魚是鱸魚的「先驗概率」為$p(w_)$，下一條魚是鮭魚的「先驗概率」是$p(w_)$，則$p(w_)+p(w_)=1$（當然，在已知資訊很少的情況下，可以假定$p(w_)=p(w_)=0.5$）。

顯然，我們不能只根據先驗概率判斷下一條魚的類別，因為這樣對每一條傳送過來的魚，我們都將得到相同的結果（顯然這是與實際不符的，很可能出錯的），而若是這樣，我們也並沒有利用現有的、傳送過來的魚的資訊（如光澤度等），就如「說美帝好的都是漢奸」這個謬誤的論斷，因為我們下的論斷是「凡是傳送過來的都是鮭魚」（假設鮭魚的先驗概率比較大）。所以更合理的判斷規則是，如果我們觀察到正傳送過來的魚的特徵$x$，我們就可以計算這條魚可能是鱸魚的概率$p(w_|x)$和可能是鮭魚的概率$p(w_|x)$；若$p(w_|x)>p(w_|x)$，則可判斷這條魚是鱸魚，反之是鮭魚。

對於特徵$x$，假定其為乙個連續隨機變數，其分布取決於類別狀態，表示成$p(x|w)$，即類別狀態為$w$時的$x$的概率密度函式。於是$p(x|w_)$與$p(x|w_)$之間的區別就表示了鱸魚和鮭魚之間特徵（如光澤度）的區別。

由條件概率的定義可知，處於類別$w_$且具有特徵值$x$的模式的聯合概率密度可寫成兩種形式：

\begin \label p(w_,x)=p(w_|x)p(x)=p(x|w_)p(w_).\end轉換一下，即為著名的貝葉斯公式：

\begin \label p(w_|x)=\frac)p(w_)}^p(x|w_)p(})} \end

通過以上公式，我們就可以通過觀察得到的特徵$x$和先驗概率$p(w_)$及概率密度函式$p(x|w_)$來計算後驗概率$p(w_|x)$。

下面來驗證一下為什麼$p(w_|x)>p(w_|x)$時，判斷真實類別是$w_$是一種好的決策（證明**於《模式識別》p9）：

證明：假設$r_1$是$w_1$類對應的特徵空間，（同理，$r_2$對應於$w_$），其中$r_ \cap r_ = \emptyset$，且$r_\cup r_ = \mathbb$（$\mathbb$表示$x$的所有可能值的集合。當然，可以這樣定義$r_$和$r_$:$r_=\ | p(x|w_) \ge p(x|w_)\},r_ = \| p(x|w_)

\begin\label \begin p_ & = p(x \in r_,w_)+p(x \in r_, w_)\\ & = \int_}p(w_|x)p(x) dx + \int_}p(w_|x)p(x) dx \end \end

又由條件概率的定義可得：

\begin \label p(w_) = \int_}p(w_|x)p(x) dx + \int_}p(w_|x)p(x) dx \end

結合式(\ref)和式(\ref)可得：

\begin \label p_= p(w_)-\int_}(p(w_|x)-p(w_|x))p(x) dx \end

由上式可以看出，我們選擇的決策方式是合理的。

《模式分類》讀書筆記之一貝葉斯決策論

讀書筆記貝葉斯原理

模式分類之貝葉斯決策入門

模式識別筆記01 貝葉斯決策論

《模式分類》讀書筆記之一 貝葉斯決策論

讀書筆記 貝葉斯原理

模式分類之貝葉斯決策入門

模式識別 筆記01 貝葉斯決策論

相關推薦

《模式分類》讀書筆記之一貝葉斯決策論

讀書筆記貝葉斯原理

模式識別筆記01 貝葉斯決策論