ROC,PR,AUC的基本概念

2021-09-11 19:18:38 字數 2019 閱讀 2121

tp:將正類**為正類數

fp:將負類**為正類數

fn:將正類**為負類數

tn:將負類**為負類數

準確率(正確率)=所有**正確的樣本/總的樣本 (tp+tn)/總

表示的是**為正的樣本中(一種是把正類**為正類即tp,一種是把負類**為正類即fp)有多少是真正的正樣本

精確率= 將正類**為正類 / 所有**為正類 tp/(tp+fp)

召回率(recall):表示樣本中的正例(一種是把正類**為正類即tp,一種是把正類**為負類即fn)被**正確了

召回率 = 將正類**為正類 / 所有正真的正類 tp/(tp+fn)

f1值 = 正確率 * 召回率 * 2 / (正確率 + 召回率) (f 值即為正確率和召回率的調和平均值)

roc(receiver operating characteristic): 是一條曲線,由fpr和tpr的點連成。橫軸是fpr,縱軸是tpr。

tpr在所有實際為正例的樣本中,被正確地判斷為正例之比率,也就是召回率:tpr=tp/(tp+fn)

fpr:在所有實際為反例的樣本中,被錯誤地判斷為正例之比率:

fpr = fp/(fp+tn)

roc曲線重點了解下這幾個節點:

(0,1)點:代表fpr=0,tpr=1;最好的情況,所有正樣本都被正確的**了,並且沒有負樣本被人為是正樣本。

(1,0)點:代表fpr=1,tpr=0;最壞的情況,表明所有的正樣本都被錯誤的認為是負樣本

(0,0)點:代表fpr=0,tpr=0;分類器將所有的樣本都判定為負樣本

(1,1)點:代表fpr=1,tpr=1;分類器將所有的樣本都判定為正樣本

在實際中由於側重的點不同,所以我們需要明白側重在哪,如果在實際中結果重在覆蓋,我們應該更加注重true positive高,如果是重在準確,我們則應該更加注重false positive低

那麼怎麼通過roc曲線來判斷true positive和false positive呢? 這裡我們如果看到曲線越往左上凸越好,這樣得到的true positive 就越高,對應的false positive越低,

曲線距離左上角越近,證明分類器效果越好

auc(area under curve):roc曲線下的面積,介於0.1和1之間。auc作為數值可以直觀的評價分類器的好壞,值越大越好.roc曲線圍成的面積 (即auc)可以解讀為:從所有正例中隨機選取乙個樣本a,再從所有負例中隨機選取乙個樣本b,分類器將a判為正例的概率比將b判為正例的概率大的可能性。可以看到位於隨機線上方的點(如圖中的a點)被認為好於隨機猜測。在這樣的點上tpr總大於fpr,意為正例被判為正例的概率大於負例被判為正例的概率。

是由精確率和召回率的點連成的線,橫軸為recall ,縱軸為precision。

roc曲線優缺點

優點:1.兼顧正例和負例的權衡。因為tpr聚焦於正例,fpr聚焦於與負例,使其成為乙個比較均衡的評估方法。2.roc曲線選用的兩個指標,都不依賴於具體的類別分布。

缺點:1.在類別不平衡的背景下,負例的數目眾多致使fpr的增長不明顯,導致roc曲線呈現乙個過分樂觀的效果估計

pr曲線優缺點

pr曲線的兩個指標都聚焦於正例。類別不平衡問題中由於主要關心正例

roc曲線與pr曲線比較

1.roc曲線由於兼顧正例與負例,所以適用於評估分類器的整體效能,相比而言pr曲線完全聚焦於正例。

2.如果有多份資料且存在不同的類別分布,比如信用卡欺詐問題中每個月正例和負例的比例可能都不相同,這時候如果只想單純地比較分類器的效能且剔除類別分布改變的影響,則roc曲線比較適合,因為類別分布改變可能使得pr曲線發生變化時好時壞,這種時候難以進行模型比較;反之,如果想測試不同類別分布下對分類器的效能的影響,則pr曲線比較適合

3.如果想要評估在相同的類別分布下正例的**情況,則宜選pr曲線

4.類別不平衡問題中,roc曲線通常會給出乙個樂觀的效果估計,所以大部分時候還是pr曲線更好

機器學習之類別不平衡問題 (2) —— roc和pr曲線

基本概念 C 基本概念

由於工作中需要用到c 編寫的一些工具,有時候需要根據需求修改或者定製工具,所以現在不得不學習一下c 的基礎語法,此為筆記,不成章法!機器語言 組合語言 高階語言 面向過程的程式設計方法 物件導向的程式設計方法 泛型程式設計方法 1 演算法設計 2 源程式編輯 3 編譯 4 連線 5 執行除錯 輸入裝...

基本概念 數控系統基本概念

第一章 基本概念 數控工具機cnc是一種按事先編制好的加工零件程式進行加工的高效 自動化加工裝置。是 computer numerical control machine tools 的簡稱。數控工具機較好地解決了複雜 精密 小批量 多品種的零件加工問題,是一種柔性的 高效能的自動化工具機。西門子系...

pwm的基本概念

脈寬調變pwm是開關型穩壓電源中的術語。這是按穩壓的控制方式分類的,除了pwm型,還有pfm型和pwm pfm混合型。脈寬寬度調製式 pwm 開關型穩壓電路是在控制電路輸出頻率不變的情況下,通過電壓反饋調整其占空比,從而達到穩定輸出電壓的目的。pwm技術的基本原理 隨著電子技術的發展,出現了多種pw...