簡單梳理對AUC的理解

auc（area under curve）是機器學習中二分類模型的乙個評價指標。定義為roc曲線中下的面積，但我們先不管定義。

簡單解釋，auc代表的是真陽性率（實際陽性、猜測陽性） > 偽陽性率（實際陰性、猜測陽性）的概率。

就拿**患糖尿病概率這一事例來說，對於真的患有糖尿病的人我們當然應該盡可能**為陽性，而對沒患糖尿病的人應盡可能不**為陽性，所以真陽性率應該盡可能大，偽陽性率應盡可能小。

深入解釋的話，首先來看混淆矩陣：

真陽性率 = 真陽性 / 真實陽性總數 = tp / ( tp + fn )

偽陽性率 = 偽陽性 / 真實陰性總數 = fp / ( fp + tn )

接著，我們知道，一堆資料經過分類器模型的計算後，會得到乙個0-1之間的數，這個數即樣本結果為1的概率，如下面的例子：

一般在生活中遇到這種資料，我們會習慣性地用四捨五入來歸納**的資料，即》=0.5為1，<0.5為0，如此得到的混淆矩陣如下：

計算的結果：

真陽性率 = 3 / (3+2) = 0.6

偽陽性率 = 3 / (3+4) = 0.43

這便是乙個可用的點資料。

回頭看一下，得出這組資料的前提，是我們選擇了四捨五入（0.5）來歸納**資料，這裡的0.5便是閥值。

而除了0.5，閥值還可能是從0到1的任何乙個值，一般把所有**概率結果排序得到所有閥值（如例項中的閥值就有0.2、0.3、0.4、0.5、0.6、0.7、0.9），以閥值來劃分**資料是屬於陽性還是陰性。

所以當我們把閥值設定為許多個不同的數，便能得到許多個不同的混淆矩陣，從而計算得到許多組不同的(真陽性率, 偽陽性率)的點資料，這時我們便能引入roc曲線這個東西了，所有這些點構成的曲線便是roc曲線：

資料量大時，曲線近於平滑，大概會長比如這樣子（網上隨便找的圖）：

這時，我們再來看auc的定義：roc曲線中下的面積。也就是說，曲線下的陰影部分面積即為我們心心念念的auc了！

所以auc值一般是越大越好，即陰影面積越大。

放到roc曲線看，即tpr越大越好，fpr越小越好。

放到混淆矩陣中看，即真陽性率越高越好（陽性值盡可能多**為陽性），偽陽性率越低越好（陰性值盡可能少**為陽性）。

而auc描述的，就是這個「好」的大小。