周志華西瓜書筆記第二章

2.1

經驗誤差與過擬合

錯誤率：分類錯誤的樣本佔樣本總數的比例

精度：1—

錯誤率

誤差：學習器的實際**輸出與樣本的真實輸出之間的差異

訓練誤差：學習器在訓練集上的誤差

泛化誤差：在新樣本上的誤差

過擬合：過度學習樣本非主要特徵導致學習器泛化能力下降

欠擬合：未完全學習樣本的特徵

過擬合難以避免，欠擬合可以避免：通過增加訓練的輪數、擴充套件決策樹分支等方法可以克服欠擬合；機器學習通常面臨

np 問題，機器學習的有效解必然是在多項式時間內的，如果徹底避免了過擬合，說明構造性的證明了

p=np

，然而事實上這件事並沒有被證明，所以只要

p!=np

，則過擬合就無法避免。

模型選擇：學習演算法

+引數配置

2.2

評估方法——通過測試對學習器的泛化誤差進行評估，進而做出選擇

測試集盡量與樣本互斥，即測試樣本未在訓練集合中出現，未被使用過

如何從資料集中產生訓練集和測試集

留出法：

2/3~4/5

作為訓練樣本，其餘作為測試樣本，既保證訓練集與資料集之間的差別不過大，又保證訓練集沒有占有絕大多數的樣本；訓練測試集的劃分，盡量保持資料分布的一致性，多種劃分方式若干次隨機劃分重複實驗評估取平均值。

交叉驗證法：將資料集進行劃分成

k個互斥且並為資料集的子集合，每次使用

k-1個子集作為乙個訓練集，餘下乙個作為測試集，進行

k次實驗，同樣，在劃分資料集時候存在不同方式，每種劃分方式下進行

k次實驗。一般，取

10次劃分方式，每次劃分成

10個子集，總共進行了

100次實驗。。。特別的，留一法，每次將每個樣本作為乙個子集，這樣有可能提高準確性，但是代價比較大

自助法/

有放回取樣法：資料集d，從

d 中m次隨機有放回取樣得到集合

d`，將

d`作為訓練集合，

d-d`

作為測試集。這樣會引起估計偏差。在資料集合足夠大的時候，採用留出法或交叉驗證法

調參與最終模型：

2.3效能度量

使用均方差

/積分形式的均方差來描述模型泛化的能力

錯誤率和精度的計算法方法

查準率、查全率與

f1，針對二分類做出詳細的描述，，相關概念：混淆矩陣，巨集查準率，微查準率，巨集查全率，微查全率，巨集

f1，微

f1roc

與auc

未完待續……

周志華西瓜書筆記 1 3 假設空間

歸納 induction 是從特殊到一般的泛化 generalization 過程,即從具體的事實歸結出一般性規律演繹 deduction 是從一般到特殊的特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...

1 周志華西瓜書筆記緒論

學習周志華的機器學習隨筆第一章緒論模型泛指從資料中學得的結果 1.2基本術語進行機器學習需要有資料，記錄的集合稱為資料集。記錄，是關於乙個事件或物件的描述，也稱為示例或樣本。樣本作為事物，有其屬性，屬性上的取值稱為屬性值，屬性張成的空間稱為屬性空間。訓練模型，需要有標記 label 的資料...

周志華西瓜書第二天閱讀模型評估

可以分為兩類，一類對於回歸問題，常常採用均方誤差 mean squared error 平均絕對誤差 mean absolute error 另一類對於分類問題，常常採用 roc 全稱是受試者工作特徵 receiver operating characteristic 曲線，而auc則是指are...

周志華西瓜書筆記 第二章

周志華西瓜書筆記 1 3 假設空間

1 周志華西瓜書筆記 緒論

周志華西瓜書 第二天閱讀 模型評估

相關推薦

周志華西瓜書筆記第二章

1 周志華西瓜書筆記緒論

周志華西瓜書第二天閱讀模型評估