模型評估之評估指標的侷限性

問1：準確率的侷限性。

當不同類別的樣本比例非常不均衡時，佔比大的類別往往成為影響準確率的最主要因素。

解決思路之一：每個類別下的樣本準確率的算術平均作為模型評估的指標。

問2：精確率與召回率的權衡。

精確率：指分類正確的正樣本個數佔分類器判定為正樣本的樣本個數的比例。

召回率：指分類正確的正樣本個數佔真正的正樣本個數的比例。

簡單解釋：精確率是「找出來的對的」佔「找出來的」多少，召回是「找出來對的」佔「所有對的」多少。

在排序問題中，通常沒有乙個確定的閾值把得到的結果直接判定為正樣本或負樣本，而是採用top n返回結果的precision值和recall值來衡量排序模型的效能。

精確和召回的拉扯：為了提高精確值，分類器需要盡量在【更有把握】時才把樣本**為正樣本，但此時往往會因為過於保守而漏掉很多【沒有把握】的正樣本，導致recall值降低。

更高階的評估指標來更全面地反映模型在precision值和recall值兩方面的表現？

不僅看模型在不同topn下的precision@n和recall@n，而且最好繪製出模型的p-r曲線。

對於乙個排序模型來說，其p-r曲線上的乙個點代表著，在某一閾值下，模型將大於該閾值的結果判定為正樣本，反之則為負樣本，此時返回結果對應的召回率和精確率。整條p-r曲線是通過將閾值從高到低移動而生成的。原點附近代表當閾值最大時模型精確率和召回率。（閾值越大，越有把握把正樣本選出來，精確率就越高，所以一般p-r曲線呈下降趨勢）

通過p-r曲線可以對不同模型進行更為全面的評估。

除此之外，還有f1 score和roc曲線，也能綜合反映乙個排序模型的效能。

f1 score是精準率和召回率的調和平均值。

問3：平方根誤差的特點

rmse能夠很好地反映回歸模型**值與真實值的偏離程度。但是，如果存在個別偏離程度非常大的離群點時，即使離群點數量非常小，也會讓rmse指標變得很差。

針對這種現象，解決方案有三。第一，資料預處理過濾掉屬於噪點聲的離群點；第二，進一步提高模型的**能力，將離群點產生的機制建模進去；第三，找乙個更合適的指標評估模型，比如平均絕對百分比誤差（mape）：相當於把每個點的誤差進行了歸一化，降低了個別離群點帶來的絕對誤差的影響。

建議：通過一組互補的指標去評估模型，能更好的發現並解決模型存在的問題。

模型評估之評估指標的侷限性

線性模型的侷限性

SQLite的侷限性

SQLite的侷限性

模型評估之評估指標的侷限性

線性模型的侷限性

SQLite的侷限性

SQLite的侷限性

相關推薦