周志華西瓜書筆記 第二章

2021-08-02 21:56:11 字數 1276 閱讀 2664

2.1

經驗誤差與過擬合

錯誤率:分類錯誤的樣本佔樣本總數的比例

精度:1—

錯誤率

誤差:學習器的實際**輸出與樣本的真實輸出之間的差異

訓練誤差:學習器在訓練集上的誤差

泛化誤差:在新樣本上的誤差

過擬合:過度學習樣本非主要特徵導致學習器泛化能力下降

欠擬合:未完全學習樣本的特徵

過擬合難以避免,欠擬合可以避免:通過增加訓練的輪數、擴充套件決策樹分支等方法可以克服欠擬合;機器學習通常面臨

np 問題,機器學習的有效解必然是在多項式時間內的,如果徹底避免了過擬合,說明構造性的證明了

p=np

,然而事實上這件事並沒有被證明,所以只要

p!=np

,則過擬合就無法避免。

模型選擇:學習演算法

+引數配置

2.2

評估方法——通過測試對學習器的泛化誤差進行評估,進而做出選擇

測試集盡量與樣本互斥,即測試樣本未在訓練集合中出現,未被使用過

如何從資料集中產生訓練集和測試集

留出法:

2/3~4/5

作為訓練樣本,其餘作為測試樣本,既保證訓練集與資料集之間的差別不過大,又保證訓練集沒有占有絕大多數的樣本;訓練測試集的劃分,盡量保持資料分布的一致性,多種劃分方式若干次隨機劃分重複實驗評估取平均值。

交叉驗證法:將資料集進行劃分成

k個互斥且並為資料集的子集合,每次使用

k-1個子集作為乙個訓練集,餘下乙個作為測試集,進行

k次實驗,同樣,在劃分資料集時候存在不同方式,每種劃分方式下進行

k次實驗。一般,取

10次劃分方式,每次劃分成

10個子集,總共進行了

100次實驗。。。特別的,留一法,每次將每個樣本作為乙個子集,這樣有可能提高準確性,但是代價比較大

自助法/

有放回取樣法:資料集d,從

d 中m次隨機有放回取樣得到集合

d`,將

d`作為訓練集合,

d-d`

作為測試集。這樣會引起估計偏差。在資料集合足夠大的時候,採用留出法或交叉驗證法

調參與最終模型:

2.3效能度量

使用均方差

/積分形式的均方差來描述模型泛化的能力

錯誤率和精度的計算法方法

查準率、查全率與

f1,針對二分類做出詳細的描述,,相關概念:混淆矩陣,巨集查準率,微查準率,巨集查全率,微查全率,巨集

f1,微

f1roc

與auc

未完待續……

周志華西瓜書筆記 1 3 假設空間

歸納 induction 是從特殊到一般的 泛化 generalization 過程,即從具體的事實歸結出一般性規律 演繹 deduction 是從一般到特殊的 特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...

1 周志華西瓜書筆記 緒論

學習周志華的機器學習隨筆 第一章 緒論 模型 泛指從資料中學得的結果 1.2基本術語 進行機器學習需要有資料,記錄的集合稱為資料集。記錄,是關於乙個事件或物件的描述,也稱為示例或樣本。樣本作為事物,有其屬性,屬性上的取值稱為屬性值,屬性張成的空間稱為屬性空間。訓練模型,需要有標記 label 的資料...

周志華西瓜書 第二天閱讀 模型評估

可以分為兩類,一類對於回歸問題,常常採用 均方誤差 mean squared error 平均絕對誤差 mean absolute error 另一類對於分類問題,常常採用 roc 全稱是 受試者工作特徵 receiver operating characteristic 曲線,而auc則是指are...