機器學習第一章緒論

2021-09-22 22:39:48 字數 1789 閱讀 2714

引言

什麼是機器學習?

:研究通過計算的手段,利用經驗來改善系統自身的效能。(對於某類任務 t 和效能度量 p,如果乙個電腦程式在 t 上以 p 衡量的 效能隨著經驗 e 而自我完善,那麼我們稱這個電腦程式在從經驗 e 學習)

基本術語

資料集:dataset 示例(instance)/樣本(sample)組成的集合

每個示例/樣本由不同的屬性(attribute)/特徵(feature)描述

屬性/特徵構成的空間稱為特徵空間(feature space)/(attribute space),而每個示例/樣本為特徵空間中的乙個點(特徵向量)

從資料中學得模型的過程稱為learning/training,訓練過程中使用的資料集稱為training set。學得的模型對應了關於資料的某種潛在規律,因此模型也稱為hypothesis。這種潛在規律自身稱為ground-truth。學習的過程又可以理解為從hypothesis space中找到與ground-truth最接近的那個hypothesis

根據訓練資料是否有label,學習任務大致可以分為兩類:supervised learning 和 unsupervised learning。

supervised learning 根據輸出空間的值得型別可分為classification(輸出空間的值為離散型別)regression(輸出空間的值為連續型別)。而classification又可分為binary classification and multi-classification

需要注意機器學習的目標是使得hypothesis能很好的適於新樣本,而不僅僅在訓練樣本中工作的很好,這種能力稱為generalization ability。

值得注意雖然training set是feature space的一小部分,我們仍希望它能很好的概括feature space 的分布特性,否則很難期望在它基礎上訓練的模型在整個feature space上工作的很好。

假設空間

採用某種learning algorithm時,所對應的所有hypothesis組成的集合稱為hypothesis space。學習的過程又可以理解為從hypothesis space中找到與ground-truth最接近的那個hypothesis。但是對於有限的樣本訓練集,有可能有多個假設與訓練樣本相對應,這些假設組成的空間稱為version space。

歸納偏好

機器學習演算法在學習過程中對某種型別假設的偏好稱為歸納偏好(inductive bias)。任何乙個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上『』等效『』的假設所迷惑,而無法產生確定的學習結果

奧卡姆剃刀原則:若有多個假設與觀察一致,則選最簡單的那個。------但是定義簡單與否卻又是一件不簡單的事情

多釋原則:主張保留與經驗觀察一致的所有假設--------------這與整合學習方面的研究相吻合

歸納偏好對應了學習演算法本身做出的關於「什麼樣的模型更好」的假設。在具體的現實問題中,這個假設是否成立。大多數時候直接決定了演算法能否取得很好的效能。

nfl原則(no free lunch):當所有「問題」出現的機會相同、或問題同等重要時,無論是所謂的聰明演算法或者是「隨機亂猜」的笨拙演算法,他們的總誤差都是一樣的。----------------意味著,關於什麼學習演算法好的討論應該應用於實際具體的問題上,空空而談是毫無意義的。

發展歷程

符號學習:decision tree和基於邏輯的學習

連線學習:神經網路(黑箱模型)

統計學習:svm以及更一般的核方法(kernel methods)

《機器學習》筆記 第一章緒論

p9 學習演算法自身的 歸納偏好 與問題是否相配,往往會起到決定性作用。1.5發展歷程 人工智慧的研究程序 推理期 知識期 學習期 從樣例中學習 也即是廣義的歸納學習 它涵蓋了監督學習 無監督學習等,本書大部分內容均屬於此範疇。從樣例中學習,從基於邏輯的符號學習 基於神經網路的連線主義學習 統計學習...

機器學習筆記 第一章緒論

第一章緒論 1引言1.1問題 1 通過計算的手段,利用經驗來改善系統自身的效能 2 有了資料 3 通過某種學習演算法 4 得到模型 5 進行 2基本術語 2.1有了資料 1 資料集 100個西瓜 2 樣本 1個西瓜 3 特徵向量 1 樣本空間 2 顏色 大小 敲起來的振幅 3 維度 4 屬性 顏色2...

《機器學習》 第一章 緒論 學習筆記

機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型 model 的演算法,即 學習演算法 learning algorithm 反映事件或物件在某方面的表現或性質的事項,稱為 屬性 attribute 或 特徵 feature 屬性上的取值稱為 屬性值 attribute value 屬性...