機器學習周志華課後習題第2章模型評估與選擇

2.1 資料集包含1000個樣本，其中500個正例、500個反例，將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估，試估算共有多少種劃分方法。

解：考慮到資料分布的一致性，訓練集應包含350個正例和350個反例；

因此，劃分方法有 c_500^350∙c_500^350 種。

2.2 資料集包含100個樣本，其中正、反例各一半，假定學習演算法所產生的模型是將新樣本**為訓練樣本數較多的類別（訓練樣本數相同時進行隨機猜測），試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。

解：（1）10折交叉驗證法

由於正反例數目相同，錯誤率為50%

（2）留一法

假定留下的是正例，那麼訓練集中正例為50，負例為49，判斷最後乙個為正例的概率為50/99，即錯誤率為50/99.

2.3 若學習器a的f1值比學習器b高，試析a的bep值是否也比b高。

解：bep是查準率p與查全率r相等時的取值，f1則為p與r的調和平均。

根據1/f1 =1/2∙(1/p+1/r)，且f1>f2，顯然bepa>bepb。

2.4 試述真正例率（tpr）、假正例率（fpr）與查準率（p）、查全率（r）之間的聯絡。

解：真正例率是所有真實正例中真正例的比例；

假正例率是所有真實反例中假正例的比例；

查準率是所有**正例中真正例的比例；

查全率是所有真實正例中真正例的比例；

所以查全率與真正例率相等， r=tpr

2.5

機器學習周志華筆記第2章

經驗誤差，也叫訓練誤差，在訓練集上的誤差，與之對應的是泛化誤差 generalization error，在新樣本上的誤差評估乙個好的模型顯然是泛化誤差最小。但是實際上事先並不知道新樣本是什麼，所以實際能做的是最小化經驗誤差。經驗誤差也不能完全決定模型的泛化誤差，會存在過擬合現象。書中簡單說明了過...

周志華《機器學習》第一章總結課後習題

第一章介紹了本書所涉及基本術語和概念。同時簡要介紹了機器學習的發展史。習題 1.1若表 1.1 只包含 1 和 4 兩個樣例，試給出相應的樣本空間。已知色澤有兩種取值，根蒂和敲聲分別有三種取值。表 1.1 西瓜資料集編號色澤根蒂敲聲好瓜1 青綠蜷縮濁響是 2烏黑蜷縮濁響是3 青綠硬挺清脆否 4烏...

機器學習周志華讀書筆記課後習題第二章

錯誤率分類錯誤的樣本佔樣本總數的比例。e a m 精度 1 a m 訓練誤差經驗誤差訓練集上的誤差泛化誤差新樣本上的誤差。區分資料集，把資料集分為兩部分，一部分是訓練集s另外一部分是測試集t 乙個資料集分成互斥的兩部分，分別作為訓練集和測試集。可以通過分層取樣的方法，保證兩個資料集的資料分...

機器學習 周志華 課後習題 第2章 模型評估與選擇

機器學習 周志華 筆記 第2章

周志華《機器學習》第一章總結 課後習題

機器學習 周志華 讀書筆記 課後習題 第二章

相關推薦

機器學習周志華課後習題第2章模型評估與選擇

機器學習周志華筆記第2章

周志華《機器學習》第一章總結課後習題

機器學習周志華讀書筆記課後習題第二章