ml 統計基礎

roc曲線理解

好文：precison（查準率）：**為正例的樣本中真正正例的比例。

recall（召回率）：真正為正例的樣本有多少被**出來。

正確率：正負例都對的比例。

優勢：正負樣本的分布變化時（即比例大改變），roc曲線能夠保持不變。

在上圖中，a和c為roc曲線，b和d為precison和recall曲線。a和b展示的是在原始測試集（正負樣本平衡）的結果，c和d是將測試集中負樣本的數量變為原來的10倍後分類器的結果。可以看出，曲線基本保持不變，而precison和recall變化較大。

roc可以用來比較不同分類器的相關效能。

如圖是乙個roc曲線的例項：

其中橫座標為fpr（false positive rate 假陽率），縱座標為真陽率tpr（true postive rate）。

fpr：所有負例中有多少被**為正例； tpr：有多少真正的正例被**出來；

roc 描繪了兩者的相對權衡：

下圖給出了precison，recall, fpr,tpr的定義：

predicted postive

predicted negative

real postive

tpfn

real negative

fptn

f-measure: precison和recall的調和平均值。沒有乙個單個的度量可以告訴所有的資訊，所以建議使用多個度量。

接下來我們考慮roc曲線中的四個點和一條線。

1.（0,0）：fp=tp=0 ，即所有樣本都被**為負樣本；

2.（1,1）：fp=tp=1，所有樣本都被**為正樣本；

3.（1,0）：fp=1，tp=0，所有正例都被**為負例，而所有正例都沒被**出來，這時最糟糕的分類器，因為它成功的避開了所有正確答案。

4.（0,1）：fp=0，tp=1，這是乙個完美的分類器，它將所有樣本都正確分類。

所以經過上述分析，我們可以斷言，roc曲線越接近左上角，該分類器的效能越好，意味著分類器在假陽率很低的同時獲得了很高的真陽率。

5. 虛線y=x：這條對角線熵的點其實代表的是乙個採用隨機猜測策略的分類器的結果。例如（0.5,0.5），表示對於一半的樣本猜測其為正樣本，另外一半樣本為負樣本。出現在右下角三角形中的任何分類器都比隨機猜測更糟糕。因此，在roc圖中，此三角形通常為空。

ml 統計 基礎