機器學習西瓜書閱讀筆記 (一)基礎概念

2021-10-07 21:38:53 字數 1522 閱讀 9825

假設空間、版本空間

nfl沒有免費午餐定理

參考文獻

假設p在用來評估電腦程式在某任務t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能的改善,則我們就說關於t和p,該程式對e進行了學習

分類和回歸是監督學習的代表聚類是無監督學習的代表如圖是西瓜書上的乙個資料集

學習目標:好瓜

好瓜的影響因素:色澤、根蒂、敲聲

首先明確好瓜不僅僅是以上資料集**現的情況,學習的目的是泛化,即通過對訓練集中的瓜的學習以獲得對沒見過的瓜進行判斷的能力。學習過程可以看作乙個在所有假設組成的空間中進行搜尋的過程,而搜尋目標是找到與訓練集匹配的假設,即能夠將訓練集中的瓜判斷正確的假設。

所以上圖,其中,色澤有青綠、烏黑、淺白3種取值,根蒂有蜷縮、稍蜷、硬挺3種取值,敲聲有濁響、清脆、沉悶3種取值。

那麼假設空間由形如 「(色澤=?) ∧ (根蒂=?) ∧ (敲聲=?)」 的所有假設組成。

除了考慮屬性色澤、根蒂、敲聲分別有3 、3、3種可能取值,還要考慮到一種屬性可能無論取什麼值都合適(用萬用字元*表示),另外有一種情況就是好瓜這個概念根本不成立(用∅表示)

所以假設空間的大小為:(3 + 1)×(3 + 1)×(3 + 1)+ 1 = 65 。

如圖為此西瓜問題的假設空間

當然筆者在《深度之眼》官方上看到乙個比較通俗理解的解釋,如下

我們需要在模型訓練過程中需要從一些候選方案中得到g,所以假設空間也就是候選方案,也就是g的候選集合。

關鍵在於模型訓練的方案。不同的模型方案,可以搜尋到不同的假設,這個假設的集合叫做版本空間。以上西瓜訓練集的版本空間如下

書上這圖真的說明了全部!討論曲線的平滑性,假設越平滑意味著越簡單。上圖就解釋了nfl,不存在a演算法一定比b演算法好,而且它們的期望性是相同的!沒有最好的演算法,只有最合適的演算法。

《機器學習》周志華著

深度之眼官方ppt

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...

《機器學習實戰》《西瓜書》筆記(一)

我們要做的其實是讓機器他有自己學習的能力,也就我們要做的應該machine learning的方向。講的比較擬人化一點,所謂machine learning的方向,就是你就寫段程式,然後讓機械人變得了很聰明,他就能夠有學習的能力。接下來,你就像教乙個嬰兒 教乙個小孩一樣的教他,你並不是寫程式讓他做到...

機器學習 西瓜書(筆記一) 緒論

在機器學習中常見的基本術語包含 資料集 屬性值 屬性空間 特徵向量 訓練集 測試集等等,各自的英文表示在思維導圖中有提及。假設空間主要提及了兩種方法 歸納法和演繹法。歸納法是從特殊到一般的 泛化 演繹法是從一般到特殊的 特化 歸納偏好指的是總誤差是與學習演算法無關的,任意兩種演算法的誤差都相等。說到...