《機器學習》周志華讀書筆記(一)緒論

2021-09-24 04:01:44 字數 2424 閱讀 2304

什麼是機器學習?

[mitchell,1997]:假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能改善,則我們就說關於t和p,該程式對e進行了學習。

全文第1章緒論部分重點介紹了機器學習中的基本術語;假設空間;歸納偏好;發展歷程與現狀

基本術語

以一批西瓜為例(估計這就是西瓜書的由來):

(色澤 = 青綠;根蒂 = 蜷縮;敲聲 = 濁響),

(色澤 = 烏黑;根蒂 = 稍蜷;敲聲 = 沉悶),

(色澤 = 淺白;根蒂 = 硬挺;敲聲 = 清脆)。

根據上述資料為例,我們有如下概念:

資料集(data set):這組資料的集合

示例/樣本(instance/sample):資料集中,每條記錄是關於乙個事件或物件(這裡是乙個西瓜)的描述

屬性/特徵(attribute/feature):反映事件或物件在某方面的表現或性質的事項,例如色澤、根蒂、敲聲

屬性值(attribute value):屬性上的取值

屬性空間/樣本空間/輸入空間(attribute/sample/input space):屬性張成的空間,乙個屬性當作乙個座標軸,在上述資料中存在3個屬性(可以理解成維度),我們可以將其張成三維空間,每乙個西瓜都可以在該三維空間中找到自己的座標

特徵向量(feature vector):由於空間中的每個點對應乙個座標向量,因此也稱乙個示例為乙個「特徵向量」

維數(dimensionality):可以理解為屬性的數量

學習/訓練(learning/training):從資料中學習模型的過程

訓練資料(learning data):訓練過程中使用的資料

訓練樣本(learning set):訓練資料中的每乙個樣本稱為乙個訓練樣本

訓練集(training set):訓練樣本組成的集合

測試(testing):學得模型後,使用其進行**的過程

標記(label):以上述資料為例((色澤 = 青綠;根蒂 = 蜷縮;敲聲 = 濁響),好瓜)中的「好瓜」,我們稱為標記

監督學習(supervised learning):訓練資料有標記資訊

無監督學習(unsupervised learning):訓練資料無標記資訊

假設空間

歸納(induction):從特殊到一般的「泛化」(generalization)過程,從具體事實歸結出一般性規律

演繹(deduction):從一般到特殊的「特化」(specialization)過程,從基礎原理推演出具體狀況

機器學習,是從訓練集的有限資料中,得到「泛化」的模型,進而得到最後的假設。學習的過程,就是從所有假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配(fit)」的假設。

以上述西瓜為例,下述為西瓜例子的假設空間

好瓜           (

有許多策略對假設空間進行搜尋,最終我們會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設。

但現實生活中我們面臨的假設空間往往會很大,因此,可能有很多假設與訓練集一致,即存在著乙個與訓練集一致的「假設集合」,我們稱之為「版本空間」(version space)

歸納偏好

歸納偏好(inductive bias):機器學習演算法在學習過程中對某種型別假設的偏好

任何乙個有效的機器學習演算法必定有其歸納偏好!

以西瓜為例,我們可以採用下述多種方式來判斷西瓜為好瓜:

好瓜  蜷縮)   (演算法喜歡更泛化的模型)

好瓜  蜷縮)  濁響)   (演算法喜歡更特殊的模型)

上述兩種判斷方法(演算法)並無高低之分,因為訓練集和測試集的資料是不一樣的。我們不能確定,泛化效能好一些的表現更好,還是泛化效能差一些的表現更好的。

引入nfl定理(no free lunch theorem,沒有免費的午餐定理):針對某一域的所有問題,所有演算法的期望效能是相同的

nfl定理最大的意義,是告訴我們,脫離具體問題,空泛的談論,哪一種學習演算法更好,是沒有意義的

發展歷程與現狀暫不做筆記

周志華 機器學習 讀書筆記

分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...

周志華《機器學習》筆記(一)緒論

第一章 緒論 1 資料集 data set 機器學習資料的集合 2 示例 樣本 instance sample 每條資料描述了乙個物件的資訊,該物件稱之為示例,一般用x表示 3 屬性 attribute 資料描述的樣本在某些方面的性質 4 樣本空間 sample space 樣本張成的空間,又稱 屬...

《機器學習》周志華 讀書筆記二補充(原創)

第2章 模型評估與選擇 p24 p51 2017 2 24 fri model selection模型選擇 選用哪種學習演算法 使用哪種引數配置 理想的解決方案 對候選模型的泛化誤差進行評估,再選擇泛化誤差最小的那個模型 通過實驗來對學習器的泛化誤差進行評估並進而做出選擇 hold out留出法 將...