機器學習機器學習常用的模型評估方法

混淆矩陣

正確率精確率

召回率靈敏度

偽陽性率

特異度p-r曲線：

f1-值

roc曲線

auc面積

均方誤差

均方根誤差

平均絕對誤差

實際值\**值

**值positive

negative

實際值positive

tpfn

negative

fptn

tp：真陽性，即實際為陽性，**為陽性

fp：假陽性，即實際為陰性，**為陽性

fn：假陰性，即實際為陽性，**為陰性

tn：真陰性，即實際為陰性，**為陰性

在資訊檢索領域，精確率和召回率又被稱為查準率和查全率：

查準率＝檢索出的相關資訊量/檢索出的資訊總量

查全率＝檢索出的相關資訊量/系統中的相關資訊總量

正確率（accuracy）又叫準確率，反映乙個模型能夠**正確的程度。當資料十分不平衡的時候，將會把所有結果**為某一類，如樣本陽性：陰性為100000:1時，可能**為陽性的概率非常高。

精準率（precision）又叫查準率、精準率、精度：是針對我們**結果而言的，它表示的是**為正的樣本中有多少是真正的正樣本。

召回率（recall）又叫查全率：是針對我們原來的樣本而言的，它表示的是樣本中的正例有多少被**正確了。

靈敏度（sensitivity）真陽性率、命中率 (hit rate)：**為陽性中佔實際為陽性比重，和召回率同乙個計算方式。值越高，說明漏掉陽性的比例越低，但是有可能出現假陽性。

偽陽性率(fpr, false positive rate) 又稱錯誤命中率，假警報率 (false alarm rate)，即假陽性站實際陰性的比重。

特異度（specificity）也稱真陰性率：**為陰性中佔實際為陰性比重。值越高，說明漏掉陰性的比例越低，但是有可能出現假陰性。

即精確率-召回率曲線。橫座標為召回率recall，縱座標為精準率precision。

p-r曲線反映查準率和查全率之間的關係，查準率和查全率是一對矛盾的度量，一般來說，查準率高時，查全率往往偏低，查全率高時，查準率往往偏低。

當用該指標衡量模型好壞時，在多個p-r曲線比較中，在該圖中有兩個指標值能說明該指標的差異：

（1）乙個學習器的p-r曲線被另乙個學習器的p-r曲線完全包住，則可斷言後者的效能優於前者

（2）查準率=查全率時的取值，如果這個值較大，則說明學習器的效能較好

f1-值（f1-measure）也稱f1-sore，是精準率和召回率的調和平均數。用於衡量模型的健壯性，實際中如果對業務不是太熟悉，一般把取該值的最大值作為模型的最好狀態。

接收者操作特徵曲線(receiver operating characteristic curve)，是反映敏感性和偽陽性率連續變數的綜合指標，將偽陽性率(fpr)定義為 x 軸，真陽性率(tpr)定義為 y 軸。

從 (0, 0) 到 (1,1) 的對角線將roc空間劃分為左上/右下兩個區域，在這條線的以上的點代表了乙個好的分類結果(勝過隨機分類)，而在這條線以下的點代表了差的分類結果(劣於隨機分類)。

完美的**是在左上角的點，在roc空間座標 (0,1)點，x=0 代表著沒有偽陽性，y=1 代表著沒有偽陰性(所有的陽性都是真陽性)；也就是說，不管分類器輸出結果是陽性或陰性，都是100%正確。

auc（area under curve）即roc曲線下的面積，是乙個模型評價的指標，只能用於二分類模型的評價。 roc曲線的橫軸是fpr，縱軸是tpr，當二者相等時，即y=x，表示的意義是：對於不論真實類別是陽性還是陰性的樣本，分類器**為陽性的概率是相等的，實際上該模型沒有任何意義。實際訓練模型中應該使tpr盡量大，fpr盡量小，即取auc的極大值。

均方誤差（mse）又稱為二次損失，l2損失（mean square error, quadratic loss, l2 loss），是最常用的回歸損失函式，用於衡量回歸模型，值越小，證明模型越好。損失函式是衡量**模型**期望結果表現的指標。尋找函式最小值。

均方根誤差即rmse（root mean square error），均方誤差（mse）的平方根。

平均絕對誤差又稱為l1損失（mean absolute error, l1 loss），平均絕對誤差（mae）是另一種用於回歸模型的損失函式。mae是目標變數和**變數之間差異絕對值之和。因此，它在一組**中衡量誤差的平均大小，而不考慮誤差的方向。

mse與mae差異：mse越大，如果資料有某些點離資料中心很遠，mse增長得就很快。直觀來說，對觀測資料，如果我們只給乙個**結果來最小化mse，那麼該**值是所有目標值的均值。但是如果我們試圖最小化mae，那麼這個**就是所有目標值的中位數。中位數對於離群點比平均值更魯棒，這使得mae比mse更加魯棒。

在實際業務中，如果離群點是會影響業務、而且是應該被檢測到的異常值，那麼我們應該使用mse。另一方面，如果我們認為離群點僅僅代表資料損壞，那麼我們應該選擇mae作為損失。

機器學習機器學習常用的模型評估方法

機器學習機器學習模型訓練與測試評估

機器學習的模型評估

機器學習機器學習目錄

機器學習 機器學習常用的模型評估方法

機器學習 機器學習模型訓練與測試評估

機器學習的模型評估

機器學習 機器學習目錄

相關推薦

機器學習機器學習常用的模型評估方法

機器學習機器學習模型訓練與測試評估

機器學習機器學習目錄