西瓜書(《機器學習》周志華)習題解析 第1章 緒論

2021-10-14 03:18:50 字數 1219 閱讀 2523

1.1 表1.1中若只包含編號為1和4的兩個樣例,試給出相應的版本空間

編號色澤

根蒂敲聲好瓜1

青綠蜷縮濁響是

2烏黑蜷縮濁響是3

青綠硬挺清脆否

4烏黑稍蜷沉悶

否在書中給出的西瓜資料集中,樣本有三個維度:色澤、根蒂、敲聲,其中色澤有兩個可能的取值 ,根蒂有三個 ,敲聲有三個 ,各自加上通配,再加上「好瓜不存在」的空集,假設空間規模 3 * 4 * 4 + 1 = 49,要根據資料集刪除與正例不一致的假設,和與反例一致的假設,即得到該問題的版本空間。p

若資料集只有編號1和4,則正例有乙個, ,與之相符的假設只有 ,8種。反例只有乙個, ,排除了上面8種情況中的最後一種 ,留下的7種假設都是有可能的,版本空間為:

1.2 與使用單個合取式來進行假設表示相比,使用「析合正規化」將使得假設空間具有更強的表示能力。例如 好瓜 ↔ ( (色澤=*) ∧ (根蒂=蜷縮) ∧ (敲聲=*) ) ∨ ( (色澤=烏黑) ∧ (根蒂=*) ∧ (敲聲=沉悶) ) 會把「 (色澤=青綠) ∧ (根蒂=蜷縮) ∧ (敲聲=清脆) 」和「 (色澤=烏黑) ∧ (根蒂=硬挺) ∧ (敲聲=沉悶) 」都分類為「好瓜」。若使用最多包含 k 個合取式的析合正規化來表達表1.1西瓜分類問題的假設空間,試估算共有多少種可能的假設。

這篇部落格將問題敘述地相當清楚:

1.3 若資料報含雜訊,則假設空間中有可能不存在與所有訓練樣本都一致的假設。在此情況下,試設計一種歸納偏好用於假設選擇

資料報含雜訊,其含義為,存在訓練集本身的部分資料,其屬性取值對應的標記值是錯誤的。對於雜訊,最理想的情況是去除所有雜訊,即將這部分「錯誤」的資料剔除出訓練集。但事實上,單從資料集本身來剔除雜訊並無通用的辦法,甚至無法直接判斷哪些資料屬於雜訊。通用地講,我們可以先認為所有不矛盾的資料都是「正確」的,只有那些屬性值相同但標記值不同的資料,「相互矛盾」的情況下,才剔除一部分資料使矛盾消除,此時剔除的方法可以視為一種歸納偏好。

例如,屬性值相同的兩個資料,其標記值分別為正例和反例,可以設計歸納偏好為:始終保留正例的資料,或始終保留反例的資料。

1.4 本章1.4節在論述「沒有免費的午餐」定理時,預設使用了「分類錯誤率」作為效能度量來對分類器進行評估。若換用其他效能度量 l,則式(1.1)將改為(將其中的指示函式改為其它效能度量 l 函式),試證明「沒有免費午餐定理」仍成立。

這篇部落格將問題敘述地相當清楚:

1.5 試述機器學習能在網際網路搜尋的哪些環節起什麼作用。

(開放性問題,此除略)

西瓜書 機器學習(周志華)學習問題記錄

西瓜書的鼎鼎大名早有耳聞,於是毫無疑問買來入門。寫此文章的時候剛要做完第二章的練習題。在看的時候有一些感慨 需要一定的數理基礎,尤其是概率論的內容。但是如果沒學過也不建議直接去啃概率論,只要把相關的部分看看即可。周老師預設我們能力很強,所以有些地方說得不夠詳細,僅靠此書無法理解,需要自己另行查閱。有...

西瓜書 機器學習《一》

泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...

西瓜書機器學習筆記 一

記錄學習機器學習的過程,方便自己以後查閱 機器學習是一門致力研究如何通過計算的手段,利用經驗來改善系統自身的效能的學科 在計算機系統中,經驗通常以 資料 形式存在,因此,機器學習所研究的主要內容是關於在計算機上從資料中產生 模型 的演算法,即 學習演算法 learning algorithm 通過經...