ROC曲線和AUC面積

本博文所有理論都是基於二分類，多分類問題其實與二分類問題相通。

考慮乙個二分問題，如果一類定為正類（positive），那麼另一類就是負類（negative）。

注意和正樣本和負樣本概念不同，參考博文：

真正類（true positive）：例項是正類並且也被 **成正類；

假正類（false positive）：例項是負類被**成正類；

真負類（true negative）：例項是負類被**成負類；

假負類（false negative）：例項是正類被**成負類。

真正類率(true positive rate ,tpr), 計算公式為tpr=tp/ (tp+ fn)，刻畫的是分類器所識別出的正例項，真的是正例項佔所有正例項的比例。也稱為精準度 / 查準率(precision)

假正類率(false positive rate, fpr),計算公式為fpr= fp / (fp + tn)，計算的是分類器錯認為正類，其實是負例項佔所有負例項的比例。也稱為召回率 / 查全率 (recall)

注意：兩者的分母不同。

它是精確率和召回率的調和平均數，最大為1，最小為0。

此外還有f2分數和f0.5分數。f1分數認為召回率和精確率同等重要，f2分數認為召回率的重要程度是精確率的2倍，而f0.5分數認為召回率的重要程度是精確率的一半。計算公式為：

在乙個二分類模型中，對於所得到的連續結果，假設已確定乙個閾值，比如說 0.6，大於這個值的例項劃歸為正類，小於這個值則劃到負類中。如果減小閾值，減到0.5，固然能識別出更多的正類，也就是提高了識別出的正例佔所有正例的比例，即tpr，但同時也將更多的負例項當作了正例項，即提高了fpr。為了形象化這一變化，在此引入roc。

receiver operating characteristic,翻譯為"接受者操作特性曲線"，夠拗口的。曲線由兩個變數1-specificity 和 sensitivity繪製. 1-specificity=fpr橫軸表示，sensitivity=tpr縱軸表示。這個組合以1-specificity對sensitivity,即是以代價(costs)對收益(benefits)。

現有兩種水果，橘子和橙子，共61800個。已知橙子有14084個設為正類，已知橘子有47716個設為負類。假設分類器為bp神經網路，且輸出層只有乙個神經元，且神經元的輸出值為0~1之間的小數值。現設定閾值，比如0.6，但凡輸出層神經元的輸出值大於等於0.6都認為是橙子，小於0.6都認為是橘子。

現將所有輸出結果從大到小排序，每6180條資料做一次擷取，並做一次tpr和fpr統計。

解析：因為已經排了序，每移動6180個資料（即移動10%），其實就相當於移動了閾值。例如大於0.91的有10%，大於0.83的有20%。

統計結果如下表。例項數指每一組的資料總數，包含正類也包含負類。正例數指真正類數，注意表中的正例數是每一段6180資料中的真正類數，具體計算還需加上前面的統計資料。

如下圖，可以換個思路去理解，即損失率對應收益率。比如從下往上第乙個點，損失0%那麼就收益0%；第二個點損失2.73%那麼就會收益34.64%。

最好的狀態是，無論損失率為多少，收益率都最高，那麼該模型就是最好的。從上圖中反應出來就是橫軸無論取值為多少，縱軸都取值為100%。如下圖綠線所示：

進一步發現，此時綠色曲線與橫軸座標圍成的面積最大，那麼就可以轉換成用roc曲線與橫軸座標圍成的面積來表示模型的準確率，於是誕生了auc。

ROC曲線和AUC面積

python計算ROC曲線和面積AUC

ROC曲線和AUC指標

AUC和ROC曲線的前世今生

ROC曲線和AUC面積

python計算ROC曲線和面積AUC

ROC曲線和AUC指標

AUC和ROC曲線的前世今生

相關推薦