《機器學習》周志華 讀書筆記二補充(原創)

2021-07-27 10:49:48 字數 1988 閱讀 5424

第2章 模型評估與選擇

p24-p51  2017-2-24 fri

model selection模型選擇:選用哪種學習演算法、使用哪種引數配置

(理想的解決方案:對候選模型的泛化誤差進行評估,再選擇泛化誤差最小的那個模型)

(通過實驗來對學習器的泛化誤差進行評估並進而做出選擇)

hold-out留出法:將資料集劃分為兩個互斥的集合,乙個訓練集,乙個測試集

(其劃分要盡可能保持資料分布的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響)

cross validation交叉驗證法(又稱

k-fold cross validationk

折交叉驗證)

:1. 將資料集劃分為

k個大小相似的互斥子集(每個子集都盡可能保持數 據分布的一致性)

2. 每次用

k-1個子集的並集作為訓練集,餘下的那個子集作為測試集

(此方法評估結果的穩定性和保真性在很大程度上取決於k的取值)

(k常取

10,即

10折交叉驗證)

m個樣本的資料集

d,對它進行取樣產生資料集

d』;每次隨機從d中挑選乙個樣本,將其拷貝放入

d』;  再將該樣本放回初始資料集d中(該樣本在下次取樣時仍有可能被採到)

重複執行m次,得到包含

m個樣本的

d』  (d中有一部分樣本會在

d』中多次出現,而另一部分樣本不出現)

(通過自助取樣,初始資料集d中約有

36.8%

的樣本未出現在

d』中)

(可以d』用作訓練集)

normalization規則化:將不同變化範圍的值對映到相同的固定範圍中,常見的是[0,1],此時亦稱歸一化。

機器學習中效能比較涉及的重要因素:

1. 我們希望比較泛化效能,而通過實驗評估方法獲得的是測試集上的效能,兩者的對比結果可能

未必相同

2. 用相同大小的測試集,若包含的測試樣例不同,測試結果會不同

3.很多機器學習演算法本身有一定的隨機性,即便用相同的引數設定在同乙個測試集上多次執行,

其結果也會有不同

偏差:度量了學習演算法的期望**與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力

方差:度量了變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響

雜訊:表達了在當前任務學習上任何學習演算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度

泛化效能是由學習演算法的能力、資料的充分性、以及學習任務本身的難度所共同決定。

給定學習任務,為取得好的泛化效能,需要:1. 使偏差較小——能充分擬合資料

2. 使方差較小——使資料擾動產生的影響小

周志華 機器學習 讀書筆記

分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...

《機器學習》周志華讀書筆記(一)緒論

什麼是機器學習?mitchell,1997 假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能改善,則我們就說關於t和p,該程式對e進行了學習。全文第1章緒論部分重點介紹了機器學習中的基本術語 假設空間 歸納偏好 發展歷程與現狀 基本術語 以一批西瓜為例 估計...

周志華機器學習第二章讀書筆記(二)

1 roc receiver operating characteristic 受試者工作特徵 研究學習器泛化能力 根據學習器的 結果對樣例進行排序,按此順序逐個把樣本作為正例進行 每次計算出兩個重要量的值,得到roc曲線。roc的橫軸是假正例率,縱軸是真正例率。如果乙個學習器的roc曲線被另乙個的...