《機器學習》 周志華 (第二章學習筆記)

2021-08-03 13:42:17 字數 1578 閱讀 2307

誤差

過擬合

已經把訓練樣本自身的一些特點當做了所有潛在樣本都會具有的一般性質,這樣就會導致泛化效能下降,這樣的現象叫做過擬合,與之相對的是「欠擬合」

泛化誤差 vs 經驗誤差

留出法

直接將擁有的資料集分成兩個互斥的集合,其中乙個是訓練集,乙個為測試集

交叉驗證法

先將資料集分成k個大小相似的互斥子集,每個子集都盡可能保持資料分布的一致性,即從d中通過分層取樣得到

m表示樣本數

自助法

在留出法和交叉驗證法中,由於保留了一部分樣本用於測試,因此實際評估的模型所使用的訓練集比d小,這樣會導致估計偏差

自助法直接以自助取樣法為基礎

通過自助取樣,有36.8%的樣本未出現在取樣資料集d』中,於是將d』做訓練集,d\d』做測試集,這樣的測試結果亦稱「包外估計」

調參與最終模型

常涉及的兩類引數

兩種方法調參過程相似:先生產若干模型,然後基於某種評估方法進行選擇

引數調得好不好往往對最終效能有關鍵影響

效能度量是衡量模型泛化能力的評價標準,反映了任務需求。

使用不同的效能度量往往會導致不同的評判結果。

回歸任務常用均方誤差

錯誤率與精度

查準率與查全率與f1

分類結果混淆矩陣

真實情況

**結果

正例反例

正例tp(真正例)

fn(假反例)

反例fp(假正例)

tn(真反例)

+查準率p

=tpt

p+fp

roc、auc

roc全稱 :受試者工作特徵(receiver operating characteristic)

根據學習器的**結果對樣例進行排序,按此順序逐個把樣本作為正例進行**,每次計算出兩個重要量的值,分別以他們為橫、縱座標作圖,就得到了「roc曲線」

auc可通過對roc曲線下各部分的面積求和而得

auc考慮的是樣本**的排序質量,因此它與排序誤差有緊密聯絡。

代價敏感錯誤率與代價曲線

非均等代價(unequal cost)

在某種度量下取得評估結果後,並不能直接比較以評判優劣

常用方法

k 折交驗證,5 * 2 交叉驗證

多學習器比較

對回歸任務,泛化誤差可通過「偏差-方差分解」拆解為:

學習筆記(第二章1) (機器學習 周志華)

這是我第一次在csdn上發帖。想要記錄一下在 機器學習 周志華 一書中遇到的一些自己不了解的問題,最終查閱資料獲得的一些解答。一方面在這裡打卡學習進度,另一方面幫助自己以後查閱。今天遇到的問題是p np問題。在第二章中,提到了我們通過尋求經驗化誤差最小化,就能獲得最優解,這是我們構造性地證明了 p ...

周志華機器學習第二章讀書筆記(二)

1 roc receiver operating characteristic 受試者工作特徵 研究學習器泛化能力 根據學習器的 結果對樣例進行排序,按此順序逐個把樣本作為正例進行 每次計算出兩個重要量的值,得到roc曲線。roc的橫軸是假正例率,縱軸是真正例率。如果乙個學習器的roc曲線被另乙個的...

機器學習 周志華 讀書筆記 課後習題 第二章

錯誤率 分類錯誤的樣本佔樣本總數的比例。e a m 精度 1 a m 訓練誤差 經驗誤差 訓練集上的誤差 泛化誤差 新樣本上的誤差。區分資料集,把資料集分為兩部分,一部分是訓練集s另外一部分是測試集t 乙個資料集分成互斥的兩部分,分別作為訓練集和測試集。可以通過分層取樣的方法,保證兩個資料集的資料分...