西瓜書（《機器學習》周志華）習題解析第1章緒論

1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應的版本空間

編號色澤

根蒂敲聲好瓜1

青綠蜷縮濁響是

2烏黑蜷縮濁響是3

青綠硬挺清脆否

4烏黑稍蜷沉悶

否在書中給出的西瓜資料集中，樣本有三個維度：色澤、根蒂、敲聲，其中色澤有兩個可能的取值，根蒂有三個，敲聲有三個，各自加上通配，再加上「好瓜不存在」的空集，假設空間規模 3 * 4 * 4 + 1 = 49，要根據資料集刪除與正例不一致的假設，和與反例一致的假設，即得到該問題的版本空間。p

若資料集只有編號1和4，則正例有乙個，，與之相符的假設只有，8種。反例只有乙個，，排除了上面8種情況中的最後一種，留下的7種假設都是有可能的，版本空間為：

1.2 與使用單個合取式來進行假設表示相比，使用「析合正規化」將使得假設空間具有更強的表示能力。例如好瓜 ↔ ( (色澤=*) ∧ (根蒂=蜷縮) ∧ (敲聲=*) ) ∨ ( (色澤=烏黑) ∧ (根蒂=*) ∧ (敲聲=沉悶) ) 會把「 (色澤=青綠) ∧ (根蒂=蜷縮) ∧ (敲聲=清脆) 」和「 (色澤=烏黑) ∧ (根蒂=硬挺) ∧ (敲聲=沉悶) 」都分類為「好瓜」。若使用最多包含 k 個合取式的析合正規化來表達表1.1西瓜分類問題的假設空間，試估算共有多少種可能的假設。

這篇部落格將問題敘述地相當清楚：

1.3 若資料報含雜訊，則假設空間中有可能不存在與所有訓練樣本都一致的假設。在此情況下，試設計一種歸納偏好用於假設選擇

資料報含雜訊，其含義為，存在訓練集本身的部分資料，其屬性取值對應的標記值是錯誤的。對於雜訊，最理想的情況是去除所有雜訊，即將這部分「錯誤」的資料剔除出訓練集。但事實上，單從資料集本身來剔除雜訊並無通用的辦法，甚至無法直接判斷哪些資料屬於雜訊。通用地講，我們可以先認為所有不矛盾的資料都是「正確」的，只有那些屬性值相同但標記值不同的資料，「相互矛盾」的情況下，才剔除一部分資料使矛盾消除，此時剔除的方法可以視為一種歸納偏好。

例如，屬性值相同的兩個資料，其標記值分別為正例和反例，可以設計歸納偏好為：始終保留正例的資料，或始終保留反例的資料。

1.4 本章1.4節在論述「沒有免費的午餐」定理時，預設使用了「分類錯誤率」作為效能度量來對分類器進行評估。若換用其他效能度量 l，則式(1.1)將改為（將其中的指示函式改為其它效能度量 l 函式），試證明「沒有免費午餐定理」仍成立。

這篇部落格將問題敘述地相當清楚：

1.5 試述機器學習能在網際網路搜尋的哪些環節起什麼作用。

（開放性問題，此除略）

西瓜書（《機器學習》周志華）習題解析第1章緒論

西瓜書機器學習（周志華）學習問題記錄

西瓜書機器學習《一》

西瓜書機器學習筆記一

西瓜書（《機器學習》周志華）習題解析 第1章 緒論

西瓜書 機器學習（周志華）學習問題記錄

西瓜書 機器學習《一》

西瓜書機器學習筆記 一

相關推薦

西瓜書（《機器學習》周志華）習題解析第1章緒論

西瓜書機器學習（周志華）學習問題記錄

西瓜書機器學習《一》

西瓜書機器學習筆記一