二分類問題中的混淆矩陣 ROC以及AUC評估指標

本篇博文簡要討論機器學習二分類問題中的混淆矩陣、roc以及auc評估指標；作為評價模型的重要參考，三者在模型選擇以及評估中起著指導性作用。

按照循序漸進的原則，依次討論混淆矩陣、roc和auc：

設定乙個機器學習問題情境：給定一些腫瘤患者樣本，構建乙個分類模型來**腫瘤是良性還是惡性，顯然這是乙個二分類問題。

當分類模型選定以後，將其在測試資料集上進行評估，分別可以得到以下評估指標：

tp表示**為良性，真實情況是良性的樣例數；

fn表示**為惡性，真實情況是良性的樣例數；

fp表示**為良性，真實情況是惡性的樣例數；

tn表示**為惡性，真實情況是惡性的樣例數；

以上四類資料構成混淆矩陣。

在混淆矩陣的基礎上，進一步地定義兩個引數。

按照下式定義fpr引數

fpr表示，在所有的惡性腫瘤中，被**成良性的比例。稱為偽陽性率。偽陽性率告訴我們，隨機拿乙個惡性的腫瘤樣本，有多大概率會將其**成良性腫瘤。顯然fpr越小越好。

按照下式定義tpr引數

tpr表示，在所有良性腫瘤中，被**為良性的比例。稱為真陽性率。真陽性率告訴我們，隨機拿乙個良性的腫瘤樣本時，有多大概率會將其**為良性腫瘤。顯然tpr越大越好。

由上，乙個混淆矩陣對應一對（fpr,tpr）

需要明確的是，fpr和tpr是建立在類別明確的**結果之上的，即分類模型明確地指出待**樣本的類別。

然而，在二分類問題（0，1）中，一般模型最後的輸出是乙個概率值，表示結果是1的概率。此時需要確定乙個閾值，若模型的輸出概率超過閾值，則歸類為1；若模型的輸出概率低於閾值，則歸類為0。

不同的閾值會導致分類的結果不同，也就是混淆矩陣有差，fpr和tpr也就不同。

當閾值從0開始慢慢移動到1的過程，就會形成很多對(fpr, tpr)的值，將它們畫在座標系上，就是所謂的roc曲線了。

得到roc曲線後，就可以計算曲線下方的面積，計算出來的面積就是auc值。

一般而言，auc越大，模型的效能越好。

二分類問題中混淆矩陣 PR以及AP評估指標

仿照上篇博文對於混淆矩陣 roc和auc指標的本文簡要討論機器學習二分類問題中的混淆矩陣 pr以及ap評估指標實際上，roc,auc 與 pr,ap 指針對具有某種相似性。按照循序漸進的原則，依次討論混淆矩陣 pr和ap 設定乙個機器學習問題情境給定一些腫瘤患者樣本，構建乙個分類模型來腫瘤是...

二分類問題混淆矩陣和相關引數

的類實際的類 f tp f t p f fn f fn f fp f fp f tn f tn 或者稱靈敏度 sensitivity 定義為被模型正確的正樣本的比例，即 tp r tp tp f n tpr tpt p fn 或者稱特指率 specificity 定義為被模型正確的負樣本的比例...

二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標

confusing matrix 也譯作混淆矩陣，是一項古老經典的統計技術，見下圖。classification代表分類器判斷的結果，positive 是陽性真等 negative 非陰性假等 condition代表事實情況，true 事實為真 false 事實是假把classificat...

二分類問題中的混淆矩陣 ROC以及AUC評估指標

二分類問題中混淆矩陣 PR以及AP評估指標

二分類問題混淆矩陣和相關引數

二分類混淆矩陣結構 從混淆矩陣到樣本不平衡分類指標

相關推薦

二分類混淆矩陣結構從混淆矩陣到樣本不平衡分類指標