P R,ROC曲線理解

解決複習機器學習的時候產生的疑惑，非本專業

周志華主編的機器學習中這樣定義pr曲線：根據學習器的**結果對樣例進行排序，排在最前面的是學習器認為「最可能」時正例的樣本，排在最後的則是學習器認為「最不可能」是正例的樣本，然後按照已經排好的順序逐個把樣本作為正例進行**，每次計算當前的查全率，查準率並繪製出曲線。

正確的理解是：使用學習器（模型）進行**，比如二分類問題，會計算出各個樣本是正例的概率，先按照這個概率進行排序（當然學習器會產生分類結果對應乙個pr曲線上的點），然後從概率最大開始的依次認為是正例（排在前面的都是），後面的都是反例，每往後認為乙個是正例，計算一次p和r，作為p-r曲線上的點。

這樣最開始p（precision）=1.0，r（recall）=0.0，最後r=1.0，p=真實情況下正例的比例。中間隨著正例的增多，r必定增大，因為加入的正例中必然會是真正例（tp）增多。p隨著加入的正例中會出現假正例會逐漸減小（但最開始不一定會變，如果學習器分類效能好的話）。

p-r曲線的面積

p-r曲線面積越大對應效能越好，很容易理解，面積越大，說明學習器在查準率和查全率取得」雙高「的比力越大。

p-r曲線面積估算不容易，但是當乙個曲線包住另乙個曲線時，顯然效能更好。而曲線相交時需要估算面積，難以計算。

平衡點（break-even point,簡稱bep）

當查準率=查全率時，取值越大，效能越好

分類的實質時由學習器為測試樣本產生乙個實值或概率**，然後將**值和乙個分類閾值比較，大於閾值分為正例，小於閾值分為反例。這樣，分類閾值的選擇就決定了**結果的好壞，直接決定了學習器的效能，泛化能力。

roc曲線，類似於pr曲線，將學習器**結果排序，然後然後調整分類閾值的大小，由大到小，對應每個閾值產生一次**，計算當前**的真正例率和假正例率，分別為縱軸和橫軸並繪圖。

實際上調整閾值的大小，逐漸變化時計算出tpr和fpr。每乙個閾值只需要將大於閾值的判為正例，小於閾值的判為負例即可，不同於pr曲線依次設為正例。

roc曲線也通過面積大小來評定學習器效能，面積越大效能越優，auc是一種計算roc曲線面積方法，類似於定積分中黎曼和的有限項形式。區間長度為相鄰兩點的橫軸間距，函式值為曲線上相鄰兩點縱走的縱軸的均值。假設roc曲線上的點列為

\scriptsize}

,則auc計算公式為

a uc

=12∑

i=1m

−1(x

i−1−

xi)⋅

(yi+

yi+1

)auc= \frac \sum_^ (x_-x_i)·(y_i+y_)

auc=21

i=1

∑m−1

(xi

−1−

xi)

⋅(yi

+yi

+1)