《機器學習》西瓜書習題 第 1 章

2022-09-03 23:33:21 字數 2232 閱讀 3760

表 \(1.1\) 中若只包含編號為 \(1\) 和 \(4\) 的兩個樣例, 試給出相應的版本空間.

這應該不難理解吧,直接上**.

編號色澤

根蒂敲聲

好瓜\(1\)

青綠蜷縮濁響是

\(4\)

烏黑稍蜷沉悶否

**與使用單個合取式來進行假設表示相比, 使用 "析合正規化" 將使得假設空間具有更強的表示能力. 例如

\[好瓜 \leftrightarrow \big((色澤=*)\wedge(根蒂=蜷縮)\wedge(敲聲=*)\big)\vee\big((色澤=烏黑)\wedge(根蒂=*)\wedge(敲聲=沉悶)\big)

\]會把 "\((色澤=*)\wedge(根蒂=蜷縮)\wedge(敲聲=*)\)" 以及 "\((色澤=烏黑)\wedge(根蒂=*)\wedge(敲聲=沉悶)\)" 都分類為 "好瓜" . 若使用最多包含 \(k\) 個合取式的析合正規化來表達 \(1.1\) 西瓜分類問題的假設空間, 試估算共有多少種可能的假設.**

一共有 \(3\) 個特徵, 第乙個特徵有 \(3\) 種取值(算上 \(*\) ), 第二, 三個都是 \(4\) 種取值.

每個合取式我們分為三項:色澤, 根蒂, 敲聲.這裡要注意某個項其實是可以同時選擇兩種取值的, 比如色澤這一項可以是 \(\big((色澤=青綠)\wedge(色澤=烏黑)\big)\) 而不是只能有乙個取值.

那麼第一項只可能選擇乙個或兩個取值, 取值是乙個時有 \(3\) 種可能, 取值為兩種時只有 \(1\) 種可能(即除了 \(*\) 外的另兩種一起取到), 其他項以此類推, 那麼就有 \(4\times7\times7=196\) 種合取式, 因此 \(k_}=196\).

所以可能的假設總數為 \(\sum^}}_c_}}^i\) , 即任意取 \(1\sim k_}\)個合取式然後組合成的析合正規化的數量.

當然我們這裡不考慮冗餘 (因為我懶) .

若資料報含雜訊, 則假設空間中有可能不存在與所有訓練樣本都一致的假設. 在此情形下, 試設計一種歸納偏好用於假設選擇.

當然是奧卡姆剃刀啦, "如無必要, 勿增實體", 大概體現了一種哲學思想吧.

**本章 \(1.4\) 節在論述 "沒有免費的午餐" 定理時, 預設使用了 "分類錯誤率" 作為效能度量來對分類器進行評估. 若換用其他效能度量 \(\ell\) ,則將式\((1.1)\)改為

\[e_(\mathfrak_a\mid x,f)=\sum_h\sum_}\in \mathcal-x}p(\boldsymbol})\ell(h(\boldsymbol}),f(\boldsymbol}))p(h\mid x,\mathfrak_a)

\]試證明 "沒有免費的午餐定理" 仍成立.**

其實和原來的推導差不多. 對所有可能的 \(f\) 按均勻發布對誤差求和, 有

\[\begin

\sum_fe_(\mathfrak_a\mid x,f)&=\sum_f\sum_h\sum_\in \mathcal-x}p(\boldsymbol)\ell(h(\boldsymbol),f(\boldsymbol))p(h\mid x,\mathfrak_a)\\

&=\sum_\in\mathcal-x}p(\boldsymbol)\sum_hp(h\mid x,\mathfrak)\sum_f\ell(h(\boldsymbol),f(\boldsymbol))\\

&=\sum_\in\mathcal-x}p(\boldsymbol)\sum_hp(h\mid x,\mathfrak)e(\ell)\\

&=e(\ell)\sum_\in\mathcal-x}p(\boldsymbol)\sum_hp(h\mid x,\mathfrak)\\

&=e(\ell)\sum_\in\mathcal-x}p(\boldsymbol)\cdot1\\

&=e(\ell)\sum_\in\mathcal-x}p(\boldsymbol)

\end\]

\(e(\ell)\) 為 \(\ell\) 的數學期望(就是 \(\ell\) 這個函式所有可能輸出的均值去乘 \(2^|}\), 因為 \(f\) 是任意的. 反正是個常數.).

最終表示式與學習演算法 \(\mathfrak\) 無關, 於是$$\sum_fe_(\mathfrak\mid x,f)=\sum_fe_(\mathfrak\mid x,f)$$

所以 "沒有免費的午餐定理" 仍成立.

試述機器學習能在網際網路搜尋的哪些環節起什麼作用.

西瓜書第1章習題

1.1 試給出相應的版本空間。首先有乙個 假設空間 現實問題中假設空間一般很大。然後有許多策略是可以對假設空間進行搜尋,搜尋過程中刪除與正例不一致的假設 和反例一致的假設。最後選出來的假設的集合,就叫做 版本空間 1.2 若使用最多包含k個合取式的析合正規化來表達表1.1西瓜分類問題的假設空間,估算...

《機器學習》西瓜書習題 第 4 章

試證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為 0 的決策樹.既然每個標記不同的資料特徵向量都不同,只要樹的每一條 從根解點到乙個葉節點算一條 枝幹代表一種向量,這個決策樹就與訓練集一致.試析使用 最小訓練誤差 作為決策樹劃分選擇準則的缺陷.4.1 ...

《機器學習》西瓜書習題 第 3 章

試析在什麼情況下式 3.2 中不必考慮偏置項 b 書中有提到,可以把 x 和 b 吸收入向量形式 hat w b 此時就不用單獨考慮 b 了.其實還有很多情況不用,比如說使用了 mathrm 編碼,就可以不用考慮偏置項.更廣泛的情況是,如果偏置項 b 可以被 包含 在另外的一些離散特徵裡,那麼就不用...