《機器學習》周志華讀書筆記（一）緒論

什麼是機器學習？

[mitchell，1997]:假設用p來評估電腦程式在某任務類t上的效能，若乙個程式通過利用經驗e在t中任務上獲得了效能改善，則我們就說關於t和p，該程式對e進行了學習。

全文第1章緒論部分重點介紹了機器學習中的基本術語；假設空間；歸納偏好；發展歷程與現狀

基本術語

以一批西瓜為例（估計這就是西瓜書的由來）：

（色澤 = 青綠；根蒂 = 蜷縮；敲聲 = 濁響），

（色澤 = 烏黑；根蒂 = 稍蜷；敲聲 = 沉悶），

（色澤 = 淺白；根蒂 = 硬挺；敲聲 = 清脆）。

根據上述資料為例，我們有如下概念：

資料集（data set）：這組資料的集合

示例/樣本（instance/sample）：資料集中，每條記錄是關於乙個事件或物件（這裡是乙個西瓜）的描述

屬性/特徵（attribute/feature）：反映事件或物件在某方面的表現或性質的事項，例如色澤、根蒂、敲聲

屬性值（attribute value）：屬性上的取值

屬性空間/樣本空間/輸入空間（attribute/sample/input space）：屬性張成的空間，乙個屬性當作乙個座標軸，在上述資料中存在3個屬性（可以理解成維度），我們可以將其張成三維空間，每乙個西瓜都可以在該三維空間中找到自己的座標

特徵向量（feature vector）：由於空間中的每個點對應乙個座標向量，因此也稱乙個示例為乙個「特徵向量」

維數（dimensionality）：可以理解為屬性的數量

學習/訓練（learning/training）：從資料中學習模型的過程

訓練資料（learning data）：訓練過程中使用的資料

訓練樣本（learning set）：訓練資料中的每乙個樣本稱為乙個訓練樣本

訓練集（training set）：訓練樣本組成的集合

測試（testing）：學得模型後，使用其進行**的過程

標記（label）：以上述資料為例（（色澤 = 青綠；根蒂 = 蜷縮；敲聲 = 濁響），好瓜）中的「好瓜」，我們稱為標記

監督學習（supervised learning）：訓練資料有標記資訊

無監督學習（unsupervised learning）：訓練資料無標記資訊

假設空間

歸納（induction）：從特殊到一般的「泛化」（generalization）過程，從具體事實歸結出一般性規律

演繹（deduction）：從一般到特殊的「特化」（specialization）過程，從基礎原理推演出具體狀況

機器學習，是從訓練集的有限資料中，得到「泛化」的模型，進而得到最後的假設。學習的過程，就是從所有假設組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集「匹配（fit）」的假設。

以上述西瓜為例，下述為西瓜例子的假設空間：

好瓜（

有許多策略對假設空間進行搜尋，最終我們會獲得與訓練集一致（即對所有訓練樣本能夠進行正確判斷)的假設。

但現實生活中我們面臨的假設空間往往會很大，因此，可能有很多假設與訓練集一致，即存在著乙個與訓練集一致的「假設集合」，我們稱之為「版本空間」（version space）

歸納偏好

歸納偏好（inductive bias）：機器學習演算法在學習過程中對某種型別假設的偏好

任何乙個有效的機器學習演算法必定有其歸納偏好！

以西瓜為例，我們可以採用下述多種方式來判斷西瓜為好瓜：

好瓜蜷縮）（演算法喜歡更泛化的模型）

好瓜蜷縮）濁響）（演算法喜歡更特殊的模型）

上述兩種判斷方法（演算法）並無高低之分，因為訓練集和測試集的資料是不一樣的。我們不能確定，泛化效能好一些的表現更好，還是泛化效能差一些的表現更好的。

引入nfl定理（no free lunch theorem，沒有免費的午餐定理）:針對某一域的所有問題，所有演算法的期望效能是相同的

nfl定理最大的意義，是告訴我們，脫離具體問題，空泛的談論，哪一種學習演算法更好，是沒有意義的。

發展歷程與現狀暫不做筆記

周志華機器學習讀書筆記

分類 classification 的是離散值,比如好瓜壞瓜回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力，稱為泛化 generalization 能力.資料探勘 data mining 從海量資料中...

周志華《機器學習》筆記（一）緒論

第一章緒論 1 資料集 data set 機器學習資料的集合 2 示例樣本 instance sample 每條資料描述了乙個物件的資訊，該物件稱之為示例，一般用x表示 3 屬性 attribute 資料描述的樣本在某些方面的性質 4 樣本空間 sample space 樣本張成的空間，又稱屬...

《機器學習》周志華讀書筆記二補充（原創）

第2章模型評估與選擇 p24 p51 2017 2 24 fri model selection模型選擇選用哪種學習演算法使用哪種引數配置理想的解決方案對候選模型的泛化誤差進行評估，再選擇泛化誤差最小的那個模型通過實驗來對學習器的泛化誤差進行評估並進而做出選擇 hold out留出法將...

《機器學習》周志華讀書筆記（一）緒論

周志華 機器學習 讀書筆記

周志華《機器學習》筆記（一）緒論

《機器學習》周志華 讀書筆記二補充（原創）

相關推薦

周志華機器學習讀書筆記

《機器學習》周志華讀書筆記二補充（原創）