資料探勘 樸素貝葉斯演算法計算ROC曲線的面積

2021-09-27 02:09:01 字數 1728 閱讀 2291

題記:

近來關於資料探勘學習過程中,學習到樸素貝葉斯運算roc曲線。也是本節實驗課題,roc曲線的計算原理以及如果統計tp、fp、tn、fn、tpr、fpr、roc面積等等。往往運用roc面積評估模型準確率,一般認為越接近0.5,模型準確率越低,最好狀態接近1,完全正確的模型面積為1.下面進行展開介紹:

roc曲線的面積計算原理

一、樸素貝葉斯法的工作過程框架圖

二、利用weka工具,找到訓練的預處理資料    

1、利用樸素貝葉斯演算法對weather.nominal.arff檔案進行處理,然後選擇temperature開啟,選擇編輯找到預處理資料如圖1-1所示:

圖1-1 完整天氣資料資訊圖

2、根據上面的訓練元組計算每個類的先驗概率,公式為p(c)

2.1、計算先驗概率

p(play=yes)=9/14=0.643

p(play=no)=5/14=0.357

2.2、 計算條件概率,根據公式p(x|c)

3、再根據公式(展示其中乙個元組進行概率分類

x= (outlook=sunny,temperature=mid,humidity=yes,windy=sunny)

代入上述資料:

3.1、

p(x|paly=yes)=p(outlook=sunny|play=yes)* p(temperature=mid|play=yes)* p(humidity=yes|play=yes)* p (outlook=sunny|play=yes))

同理計算:p(x|paly=no)

3.2、通過結果比較,得出元組play

3.3、然後進行概率的計算

4、再引用《資料探勘概念與技術》中p244頁方法,如圖1-2所示:

圖1-2 返回資料樣例

如上圖為樣例非真實資料:因為根據3.3可以計算每個元組的概率,利用概率大小進行類的排序。再根據先驗概率進行tp、fp、tn、fn的真實資料,並且不難算出tpr和fpr的資料

5、再引用《資料探勘概念與技術》中p245頁知識,以fpr作為x軸,tpr作為y軸,繪製資料的roc曲線,將4中的資料分別代入進去,得到如圖1-3所示:

圖1-3 返回資料圖

根據以上圖形,利用數學方法得到roc曲線面積為0.9222.然後再利用weka檢視工具資料,如圖1-4所示:

圖1-4 weka返回資料

資料探勘之樸素貝葉斯演算法

樸素貝葉斯演算法思想 舉個例子,假如某天是否要出去打網球,有兩種選擇 是和否,即最後分成兩個類別。但是受3個因素的影響,分別是天氣 溫度和是否有風。天氣有3個值 晴 多雲和有雨。溫度有3個值 高,正常和低。是否有風有兩個值 是和否。假如樣本a是,樣本b是,還有其他的樣本,可以得到樣本的某些先驗概率,...

樸素貝葉斯演算法

首先樸素貝葉斯分類演算法利用貝葉斯定理來 乙個未知類別的樣本屬於各個類別的可能性,選擇可能性最大的乙個類別作為該樣本的最終類別。對於計算而言,需要記住乙個公式。p c x p x c p c p x 類似於概率論條件概率公式。其中x代表含義為最終類別,例如 yes?no。c為屬性。使用樸素貝葉斯演算...

樸素貝葉斯演算法

計算貝葉斯定理中每乙個組成部分的概率,我們必須構造乙個頻率表 因此,如果電子郵件含有單詞viagra,那麼該電子郵件是垃圾郵件的概率為80 所以,任何含有單詞viagra的訊息都需要被過濾掉。當有額外更多的特徵時,此概念的使用 利用貝葉斯公式,我們可得到如下概率 分母可以先忽略它,垃圾郵件的總似然為...