機器學習 揚帆起航002 02模型評估與選擇 2

2021-10-09 14:11:57 字數 2732 閱讀 2896

筆記有什麼問題,歡迎大佬指教吶
2.2 模型選擇

2.1.1 評估方法

首先什麼是評估方法,你可以簡單理解為我的模型建好了,用什麼資料去評估它。理論來說應該是用未來的資料去評估,但是實際我們是沒有未來資料的,那麼我們就要從總資料中拿出一部分來當做『未來資料』,那麼測試集要怎麼劃分出來呢?便有了以下三種方法:(『未來資料』我們將它叫做『測試集』)

①留出法

比如我們有1萬條樣本資料,我們按照乙個比例,分出一部分來當測試集,測試集在模型訓練時不要使用,只用來評估模型。

這個方法很簡單,但有一些小地方需要注意:第一,測試集劃分我們用的比例不能太大,一般要求在1/5至1/3即可;第二,資料分布的一致性,簡單來說就是你有1000男女資料,你測試集只用300個,比例沒有問題,但是他們都是男,或者300裡面只有50多個男,其他都是女,那也測試的不好,對吧!

②交叉驗證

全名一般叫做『n次k折交叉驗證』,怎麼弄呢,比如有1000資料,以5折交叉驗證為例,將1000樣本隨機分為5份,取第乙份作為測試集,訓練測試一次;以第二份為測試集,訓練測試一次…這樣5次之後測試結果誤差之類的取5次的均值。因為第一次的5份為隨機的,我們可以取n次,不斷地訓練測試。

ps:留一法:如果1000樣本劃分為1000份,每次留乙個測試,這樣訓練測試1000次,這就是留一法,這個方法雖然效果好,但是很明顯,計算開銷太大,所以很少用。

③自助法(當時看到這個後,感覺太強了,用的很巧妙)

來複習下極限,有這樣乙個公式

這個結果可以去自己驗證,下面來看自助法,比如m個樣本,我每次從中取出乙個,然後放回。每乙個被取到的概率為1/m,那麼不被取到的概率就是1-1/m,如果不斷地這樣做,也就是m無限大時會怎樣呢,看上面那個極限公式,可以發現不管你取多少次,總會有36.8%的樣本不會被取到,很神奇吧。

根據這個便有了自助法。

當然這三個方法也不是可以隨便用的,自助法是我認為最好用的,但是他只適合與小資料集(又一次驗證了nfl),留出法和交叉驗證適合大資料集,最終這三個方法,最常用的是交叉驗證。

2.2.2 效能度量

①錯誤率與精度

這是最常見的指標,就不說啥了。

②查準率和查全率和f1

這個指標什麼時候可以用呢,具體值能說明什麼呢?

舉乙個例子,如果我們有1000幅畫,裡面有5個贗品,現在要分出贗品,那麼如果從畫的持有者方面來考慮,將95幅真畫裡分錯乙個和5幅贗品分錯乙個其最後的價值是不同的(這個例子雖然有點不太合適,能理解這個資料集不平衡的特徵就行)對於這些問題,就引出了查準率和查全率。(在分類中一定要將兩類中數量少的那一類劃為正類,這樣評價才能體現稀有類的價值)

具體指標怎麼求,在另一篇,這裡是通道:通道

這裡補充一下f1指標的新知識:

當β=1時,為正常的f1

當β>1時,偏重查全率

當β<1時,偏重查準率

③roc曲線

參考上面的通道吧,就不再重寫一遍了。

2.2.3 代價敏感錯誤率與代價曲線

以二分類為例,比如買票進入乙個博物館的人有好人有壞人,現在根據每個人的資訊去分類,有四種情況①好人分成了好人②好人分成了壞人③壞人分成了好人④壞人分成了壞人。在①④中不會造成博物館的損失,所以損失代價為0,而②和④都會造成一定的損失,假設分別為cost01和cost10,好人當成壞人,博物館損失的只是一張票,而壞人當成好人,博物館會損失很多錢,甚至金錢都無法彌補的損失。也就是說有時候cost01不等於cost10,那麼我們用普通的錯誤率去評價就不怎麼準確了。

新的錯誤率

代價敏感錯誤率(非均等代價下):

定義:0類中**錯誤的個數代價cost+1類中**錯誤的個數代價cost,然後除以總個數m。(每個類對應的cost相加一定為1)

非均等代價代價下,roc指標也失去了意義,採用新的代價曲線來達到roc指標的意義,

x軸(取值0-1):正例概率代價:

ps:p為樣例為正例的概率。

y軸(取值0-1):歸一化代價:

圖中陰影構成期望總體代價。

機器學習模型 如何口述機器學習模型原理

重磅乾貨,第一時間送達 有時碰到跟別人聊起模型的熟悉時,不免要闡述下模型的原理,但一般口頭交流都比較難,因為腦海裡面都是一些公式,似乎從功利角度有必要把模型原理用文字表達一遍,所以自己整理了下機器學習的部分,有遺漏或者不對的地方也請多多指教 線性回歸 首先我們會定乙個函式假定y和x的關係,如y wx...

機器學習模型 SVM

liblinear libsvm 台灣的 線性可分的svm max s.t.yi wxi b w i 1,2 n代入 w 於是得到 max w s.t.yi w xi b i 1,2 n 其中 是幾何距離,是函式距離。的取值對上述優化問題沒有影響,因為如果 按比例增加,那麼目標函式和約束中的w 和 ...

機器學習 模型推導

支援向量機通俗導論 理解svm的三層境界 最大熵模型中的數學推導 em演算法的兩個理解角度 資料探勘領域十大經典演算法之 em演算法 如何通俗地講解 viterbi 演算法?通俗理解lda主題模型 從拉普拉斯矩陣說到譜聚類 從貝葉斯方法談到貝葉斯網路 cnn筆記 通俗理解卷積神經網路 程式設計師面試...