周志華《機器學習》第一章總結 課後習題

2021-08-18 04:16:36 字數 2838 閱讀 6933

第一章介紹了本書所涉及基本術語和概念

同時簡要介紹了機器學習的發展史。

習題 1.1若表 1.1 只包含 1 和 4 兩個樣例,試給出相應的樣本空間。已知色澤有兩種取值,根蒂和敲聲分別有三種取值。

表 1.1 西瓜資料集

編號色澤

根蒂敲聲好瓜1

青綠蜷縮濁響是

2烏黑蜷縮濁響是3

青綠硬挺清脆否

4烏黑稍蜷沉悶

否首先說明概念1:版本空間(version space)是概念學習中與已知資料集一致的所有假設(hypothesis)的子集集合。即是版本空間是假設空間中於樣本滿足一致的「假設集合」, 是基於樣本決定的。

gb 是最大泛化正假設邊界(maximally general positive hypothesis boundary);

sb 是最大精確正假設邊界(maximally specific positive hypothesis boundary)。

對於二維空間中的「矩形」假設(如圖),綠色代表正例,紅色代表負例。學習過程中,可以

不斷刪除與正例不一致的假設、和(或)與反例一致的假設。最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設,即學得結果。如圖 gb 與 sb 所圍成的區域中的矩形即為版本空間。

解答:由於色澤有兩種取值,根蒂和敲聲分別有三種取值,再各自加上「通配」(即取什麼值都無關緊要)這一項,一共是 (2+

1)×(

3+1)

×(3+

1)=48

種取值,另外還有一種取值是「好瓜這個概念根本不成立」即空集。故

假設空間大小為 48+1=49。現在根據已有樣本 1 和 4,可以排除掉假設空間中所有「色澤

≠青綠」或「根蒂

≠蜷縮」或「聲響

≠濁響」的項,以及由於有樣本 1 即好瓜的存在,排除空集那一項,所以得到的版本空間大小為 8,用合取式表示則是以下 8 種取值: (色

澤=青綠

)∧(根

蒂=∗)

∧(敲聲

=∗)(

色澤=∗

)∧(根

蒂=蜷縮

)∧(敲

聲=∗)

(色澤=

∗)∧(

根蒂=∗

)∧(敲

聲=濁響

)(色澤

=青綠)

∧(根蒂

=蜷縮)

∧(敲聲

=∗)(

色澤=青

綠)∧(

根蒂=∗

)∧(敲

聲=濁響

)(色澤

=∗)∧

(根蒂=

蜷縮)∧

(敲聲=

濁響)(

色澤=青

綠)∧(

根蒂=蜷

縮)∧(

敲聲=濁

響)

習題 1.2 解答:剛已經分析了有 8 種取值,故假設空間中的假設用析取正規化表達形式如下: 好瓜

↔∨∨∨

∨∨∨(

(色澤=

青綠)∧

(根蒂=

∗)∧(

敲聲=∗

))((

色澤=∗

)∧(根

蒂=蜷縮

)∧(敲

聲=∗)

)((色

澤=∗)

∧(根蒂

=∗)∧

(敲聲=

濁響))

((色澤

=青綠)

∧(根蒂

=蜷縮)

∧(敲聲

=∗))

(色澤=

青綠)∧

(根蒂=

∗)∧(

敲聲=濁

響))(

(色澤=

∗)∧(

根蒂=蜷

縮)∧(

敲聲=濁

響))(

(色澤=

青綠)∧

(根蒂=

蜷縮)∧

(敲聲=

濁響))

其中任意乙個取值可以去掉(即去掉取值的約束,從而擴大了結果的空間),比如 好

瓜↔∨(

(色澤=

青綠)∧

(根蒂=

∗)∧(

敲聲=∗

))((

色澤=∗

)∧(根

蒂=蜷縮

)∧(敲

聲=∗)

)也是一種假設。但不可將 8 個都去掉,這樣對「好瓜」就毫無約束了,這樣存在樣本 4 是不符的。故包含以上 8 額合取式中任意非 0 個的析取正規化表示式都是合理的假設,即共有 28−

1=255種假設。

首先給出相關定義,合取正規化:conjunctive normal form - wikipedia,析合正規化:disjunctive normal form - wikipedia。

習題 1.3 解答:由於含有雜訊,故可對樣本空間放寬約束。對於那些只與極少數樣本不一致卻與極大多數樣本一致的假設,仍將其保留在版本空間中。

機器學習(周志華) 第一章總結

的是離散值 好 壞 分類。連續值 0.98 0.90 回歸。通過對訓練集x的學習,形成到集合y的對映 聚類 根據資料的內在聯絡,進行按別分類。訓練資料 有標記的 聚類過的 稱為無監督學習,反之 回歸和分類 為監督學習 歸納學習 廣義的 從樣例種學習 監督與無監督 狹義的 從訓練資料種學習概念 概念學...

西瓜書 周志華 機器學習第一章 緒論

1.什麼是機器學習?人區別於機器,更多是基於經驗累積起來的個體。比如今天我起床看見天空有點兒灰暗,沒有太陽,那我就可以初步預判今天應該是會下雨。走在路上發現,風越吹越大,蜻蜓也在低飛,天越來越黑,這時你知道要下雨了,而且根據以往十幾年來的經驗判斷,這雨還不小,我得趕緊找個地方躲起來。人呢 遇到事多了...

機器學習第一章緒論(周志華西瓜書)

目錄 第一章 緒論 1.1 引言 1.2 基本術語 1.3 假設空間 1.4 歸納偏好 1.5 發展歷程 1.6 應用現狀 1.7閱讀材料 2.課後練習 由 的值是否連續分類 由是否有標記分類 最終可能會有很多與訓練集一致的假設 無法取捨 通過實際偏好來選擇 有沒有一般性原則來引導選擇正確的偏好呢?...