學習筆記18 ROC曲線和AUC值

比如有這樣乙個在房子周圍可能發現的動物型別的**，這個**的三類問題的混淆矩陣如下表所示：

乙個三類問題的混淆矩陣

利用混淆矩陣可以充分理解分類中的錯誤了。如果混淆矩陣中的非對角線元素均為0，就會得到乙個近乎完美的分類器。

在接下來的討論中，將以經典的二分類問題為例，對於多分類模擬推斷。

二分類問題在機器學習中是乙個很常見的問題，經常會用到。roc (receiver operating characteristic) 曲線和 auc (area under the curve) 值常被用來評價乙個二值分類器 (binary classifier) 的優劣。之前做醫學影象計算機輔助肺結節檢測時，在評定模型**結果時，就用到了roc和auc，這裡簡單介紹一下它們的特點，以及更為深入地，討論如何作出roc曲線圖和計算auc值。

針對乙個二分類問題，我們將例項分成正類(positive)和負類(negative)兩種。

例如：在肺結節計算機輔助識別這一問題上，一幅肺部ct影象中有肺結節被認為是陽性(positive)，沒有肺結節被認為是陰性(negative)。對於部分有肺結節的示意圖如下：

常見肺結節示意圖

所以在實際檢測時，就會有如下四種情況：

(1) 真陽性(true positive，tp)：檢測有結節，且實際有結節；正確肯定的匹配數目；

(2) 假陽性(false positive，fp)：檢測有結節，但實際無結節；誤報，給出的匹配是不正確的；

(3) 真陰性(true negative，tn)：檢測無結節，且實際無結節；正確拒絕的非匹配數目；

(4) 假陰性(false negative，fn)：檢測無結節，但實際有結節；漏報，沒有正確找到的匹配的數目。

更多引數詳細資訊及其意義請參考 wikipedia -> [confusion_matrix](

上圖中涉及到很多相關概念及引數，詳細請見wiki上的定義及其混淆矩陣，這裡整理肺結節識別中的幾個主要引數指標如下：

roc曲線：接收者操作特徵曲線（receiver operating characteristic curve），是反映敏感性和特異性連續變數的綜合指標，roc曲線上每個點反映著對同一訊號刺激的感受性。

對於分類器，或者說分類演算法，評價指標主要有precision，recall，f-score等，以及這裡要討論的roc和auc。下圖是乙個roc曲線的示例：

在乙個二分類模型中，假設採用邏輯回歸分類器，其給出針對每個例項為正類的概率，那麼通過設定乙個閾值如0.6，概率大於等於0.6的為正類，小於0.6的為負類。對應的就可以算出一組(fpr,tpr)，在平面中得到對應座標點。隨著閾值的逐漸減小，越來越多的例項被劃分為正類，但是這些正類中同樣也摻雜著真正的負例項，即tpr和fpr會同時增大。閾值最大時，對應座標點為(0,0)，閾值最小時，對應座標點(1,1)。

如下面這幅圖，(a)圖中實線為roc曲線，線上每個點對應乙個閾值。

roc曲線和它相關的比率

(a) 理想情況下，tpr應該接近1，fpr應該接近0。roc曲線上的每乙個點對應於乙個threshold，對於乙個分類器，每個threshold下會有乙個tpr和fpr。比如threshold最大時，tp=fp=0，對應於原點；threshold最小時，tn=fn=0，對應於右上角的點(1,1)。

(b) p和n得分不作為特徵間距離d的乙個函式，隨著閾值theta增加，tp和fp都增加。

隨著閾值threshold調整，roc座標系裡的點如何移動可以參考：

auc值為roc曲線所覆蓋的區域面積，顯然，auc越大，分類器分類效果越好。

auc = 1，是完美分類器，採用這個**模型時，不管設定什麼閾值都能得出完美**。絕大多數**的場合，不存在完美分類器。

0.5 < auc < 1，優於隨機猜測。這個分類器（模型）妥善設定閾值的話，能有**價值。

auc = 0.5，跟隨機猜測一樣（例：丟銅板），模型沒有**價值。

auc < 0.5，比隨機猜測還差；但只要總是反**而行，就優於隨機猜測。

假設分類器的輸出是樣本屬於正類的socre（置信度），則auc的物理意義為，任取一對（正、負）樣本，正樣本的score大於負樣本的score的概率。

（1）第一種方法：auc為roc曲線下的面積，那我們直接計算面積可得。面積為乙個個小的梯形面積之和，計算的精度與閾值的精度有關。

（2）第二種方法：根據auc的物理意義，我們計算正樣本score大於負樣本的score的概率。取n*m（n為正樣本數，m為負樣本數）個二元組，比較score，最後得到auc。時間複雜度為o(n*m)。

（3）第三種方法：與第二種方法相似，直接計算正樣本score大於負樣本的score的概率。我們首先把所有樣本按照score排序，依次用rank表示他們，如最大score的樣本，rank=n(n=n+m)，其次為n-1。那麼對於正樣本中rank最大的樣本（rank_max），有m-1個其他正樣本比他score小，那麼就有(rank_max-1)-(m-1)個負樣本比他score小。其次為(rank_second-1)-(m-2)。最後我們得到正樣本大於負樣本的概率為：

時間複雜度為o(n+m)。

參考：

ROC曲線和AUC面積
本博文所有理論都是基於二分類，多分類問題其實與二分類問題相通。考慮乙個二分問題，如果一類定為正類 positive 那麼另一類就是負類 negative 注意和正樣本和負樣本概念不同，參考博文真正類 true positive 例項是正類並且也被成正類假正類 false positive 例項...

ROC曲線和AUC指標
roc曲線的橫軸就是fprate，縱軸就是tprate，二者相等時表示的意義則是對於不論真實類別是1還是0的樣本，分類器為1的概率是相等的，此時auc為0.5 圖中藍色的線則是roc曲線，roc曲線和橫軸縱軸圍成的面積就是auc指標。fpr fp fp tn from sklearn.metr...

瞎聊機器學習 PR曲線 ROC曲線 AUC
roc曲線經常作為評估二分類的重要指標，其起源於軍事領域，全稱叫做receiver operating characteristic curve。roc曲線是二維平面內的曲線，其橫座標為假陽性率 fpr 縱座標為真陽性率 tpr 他們的計算方法如下上式中舉個例子假設有10個人疑似感冒了，其中有...

學習筆記18 ROC曲線和AUC值

ROC曲線和AUC面積

ROC曲線和AUC指標

瞎聊機器學習 PR曲線 ROC曲線 AUC

相關推薦