AUC與ROC 衡量分類器的好壞

二元分類器是指要輸出（**）的結果只有兩種類別的模型，既然是一種**模型，則實際情況一定是有些結果猜對了，有些結果猜錯了。因為二元分類器的**結果有兩種類別，對應其真實值，則會有以下四種情形：

**為陽性，真實為陰性（偽陽性）

**為陰性，真實為陽性（偽陰性）

**為陰性，真實為陰性（真陰性）

**為陽性，真實為陽性（真陽性）

roc 空間

在訊號檢測理論中，接收者操作曲線（receiver operating characteristic curve）是一種座標圖式的分析工具。

roc空間是乙個以偽陽性率（fpr，false positive rate）為x軸，真陽性率（tpr, true positive rate）為y軸的二維座標系所代表的平面。

tpr:真陽性率，所有陽性樣本中（tp+fn）,被分類器正確判斷為陽的比例。

tpr = tp / (tp + fn) = tp / 所有真實值為陽性的樣本個數

fpr:偽陽性率，所有陰性樣本中（fp+tn）,被分類器錯誤判斷為陽的比例。

fpr = fp / (fp + tn) = fp / 所有真實值為陰性的樣本個數

我們想象這樣乙個場景，接觸陽性樣本可以給我們帶來收益，接觸陰性樣本則會給我們造成成本。並且如果我們接觸樣本中所有的陽性樣本，我們的收益是1，接觸樣本中所有陰性樣本，我們的成本也是1。如果不接觸樣本，則既不產生收益也不產生成本。自然的，如果不適用分類器，接觸所有樣本，則總的效益為1-1=0。現在讓我們利用分類器來決定是否接觸樣本，分類器**為陽，我們就去接觸樣本，分類器**為陰，我們就不去接觸。

那麼乙個分類器的分類效果就對應roc空間裡的乙個點：

a,b,c三個點可以分別代表三個不同的分類器對同樣的樣本做**的結果。

最好的方法是a，因為他的收益大於成本（tpr>fpr）,最差的是c(tpr這裡有趣的一點是若把c以(0.5, 0.5)為中點作乙個映象，得到c』， c』的效果比a要來的好。c』相當於乙個做與c**結果完全相反的分類器。

實際的應用當中，分類器還會給出它**某個樣本為陽的概率，並且有乙個事先給定的門檻值(threshold)，概率高於threshold的就**為陽性，低於threshold的就**為陰性。假設以下是某個分類器對id為1-10的客戶的分類結果:

其中probability of 1為分類器判斷該樣本為陽性的概率，true class為該樣本的真實情況。

如果我們把threshold定位0.5，即去接觸id為1~8的客戶。此時

tpr = tp / 所有真實值為陽性的樣本個數 = 6 / 6 = 1
fpr = fp / 所有真實值為陰性的樣本個數 = 2 / 4 = 0.6

同理，如果我們把threshold定位0.8，即去接觸id為1~5的客戶。此時

tpr = tp / 所有真實值為陽性的樣本個數 = 4 / 6 = 0.67 fpr = fp / 所有真實值為陰性的樣本個數 = 1 / 4 = 0.25

這兩個threshold分別對應roc空間中的兩個點a、b

上面的例子當中，共有10筆**資料，則一共有11種threshold的設定方法，每乙個threshold對應roc空間中的乙個點，把這些點連線起來，就成了roc曲線。

AUC與ROC 衡量分類器的好壞

ROC與AUC的資料彙總

分類器效能指標之ROC曲線 AUC值

分類器效能指標之ROC曲線 AUC值

AUC與ROC 衡量分類器的好壞

ROC與AUC的資料彙總

分類器效能指標之ROC曲線 AUC值

分類器效能指標之ROC曲線 AUC值

相關推薦