P R,ROC曲線理解

2021-10-11 08:54:33 字數 1368 閱讀 6620

解決複習機器學習的時候產生的疑惑,非本專業

周志華主編的機器學習中這樣定義pr曲線:根據學習器的**結果對樣例進行排序,排在最前面的是學習器認為「最可能」時正例的樣本,排在最後的則是學習器認為「最不可能」是正例的樣本,然後按照已經排好的順序逐個把樣本作為正例進行**,每次計算當前的查全率,查準率並繪製出曲線。

正確的理解是:使用學習器(模型)進行**,比如二分類問題,會計算出各個樣本是正例的概率,先按照這個概率進行排序(當然學習器會產生分類結果對應乙個pr曲線上的點),然後從概率最大開始的依次認為是正例(排在前面的都是),後面的都是反例,每往後認為乙個是正例,計算一次p和r,作為p-r曲線上的點。

這樣最開始p(precision)=1.0,r(recall)=0.0,最後r=1.0,p=真實情況下正例的比例。中間隨著正例的增多,r必定增大,因為加入的正例中必然會是真正例(tp)增多。p隨著加入的正例中會出現假正例會逐漸減小(但最開始不一定會變,如果學習器分類效能好的話)。

p-r曲線的面積

p-r曲線面積越大對應效能越好,很容易理解,面積越大,說明學習器在查準率和查全率取得」雙高「的比力越大。

p-r曲線面積估算不容易,但是當乙個曲線包住另乙個曲線時,顯然效能更好。而曲線相交時需要估算面積,難以計算。

平衡點(break-even point,簡稱bep)

當查準率=查全率時,取值越大,效能越好

分類的實質時由學習器為測試樣本產生乙個實值或概率**,然後將**值和乙個分類閾值比較,大於閾值分為正例,小於閾值分為反例。這樣,分類閾值的選擇就決定了**結果的好壞,直接決定了學習器的效能,泛化能力。

roc曲線,類似於pr曲線,將學習器**結果排序,然後然後調整分類閾值的大小,由大到小,對應每個閾值產生一次**,計算當前**的真正例率和假正例率,分別為縱軸和橫軸並繪圖。

實際上調整閾值的大小,逐漸變化時計算出tpr和fpr。每乙個閾值只需要將大於閾值的判為正例,小於閾值的判為負例即可,不同於pr曲線依次設為正例。

roc曲線也通過面積大小來評定學習器效能,面積越大效能越優,auc是一種計算roc曲線面積方法,類似於定積分中黎曼和的有限項形式。區間長度為相鄰兩點的橫軸間距,函式值為曲線上相鄰兩點縱走的縱軸的均值。假設roc曲線上的點列為

\scriptsize}

,則auc計算公式為

a uc

=12∑

i=1m

−1(x

i−1−

xi)⋅

(yi+

yi+1

)auc= \frac \sum_^ (x_-x_i)·(y_i+y_)

auc=21

​i=1

∑m−1

​(xi

−1​−

xi​)

⋅(yi

​+yi

+1​)

ks 曲線 ROC曲線與KS曲線的理解

roc曲線 roc曲線是評判乙個模型好壞的標準,有兩個值要知道,fpr 假正率 和tpr 真正率 roc曲線就是以這兩個值為座標軸畫的。比如邏輯回歸得到的結果是概率,那麼就要取閾值來劃分正負,這時候,每劃乙個閾值,就會產生一組fpr和tpr的值,然後把這組值畫成座標軸上的乙個點,這樣,當選取多組閾值...

ROC曲線的理解

1 roc曲線的概念 受試者工作特徵曲線 receiver operating characteristic curve,簡稱roc曲線 又稱為 感受性曲線 sensitivity curve 得此名的原因在於曲線上各點反映著相同的感受性,它們都是對同一 訊號刺激的反應,只不過是在幾種不同的判定標準...

代價敏感曲線理解

1.參考 2.理解 roc主要考量均等代價,代價敏感曲線主要考量非均等代價。兩者都是衡量某一學習器在不同場景下的綜合表現情況,而不是單一場景。roc通過閾值變化來體現不同場景,即高閾值表現了重視查準率的場景,低閾值則重視查全率的場景。代價敏感曲線則是通過p值,即正例的先驗概率即原本正例佔比的變化來體...