機器學習第一章緒論

引言

什麼是機器學習？

：研究通過計算的手段，利用經驗來改善系統自身的效能。（對於某類任務 t 和效能度量 p，如果乙個電腦程式在 t 上以 p 衡量的效能隨著經驗 e 而自我完善，那麼我們稱這個電腦程式在從經驗 e 學習）

基本術語

資料集：dataset 示例（instance）/樣本（sample）組成的集合

每個示例/樣本由不同的屬性（attribute）/特徵（feature）描述

屬性/特徵構成的空間稱為特徵空間(feature space)/(attribute space)，而每個示例/樣本為特徵空間中的乙個點（特徵向量）

從資料中學得模型的過程稱為learning/training，訓練過程中使用的資料集稱為training set。學得的模型對應了關於資料的某種潛在規律，因此模型也稱為hypothesis。這種潛在規律自身稱為ground-truth。學習的過程又可以理解為從hypothesis space中找到與ground-truth最接近的那個hypothesis

根據訓練資料是否有label，學習任務大致可以分為兩類：supervised learning 和 unsupervised learning。

supervised learning 根據輸出空間的值得型別可分為classification（輸出空間的值為離散型別）regression（輸出空間的值為連續型別）。而classification又可分為binary classification and multi-classification

需要注意機器學習的目標是使得hypothesis能很好的適於新樣本，而不僅僅在訓練樣本中工作的很好，這種能力稱為generalization ability。

值得注意雖然training set是feature space的一小部分，我們仍希望它能很好的概括feature space 的分布特性，否則很難期望在它基礎上訓練的模型在整個feature space上工作的很好。

假設空間

採用某種learning algorithm時，所對應的所有hypothesis組成的集合稱為hypothesis space。學習的過程又可以理解為從hypothesis space中找到與ground-truth最接近的那個hypothesis。但是對於有限的樣本訓練集，有可能有多個假設與訓練樣本相對應，這些假設組成的空間稱為version space。

歸納偏好

機器學習演算法在學習過程中對某種型別假設的偏好稱為歸納偏好（inductive bias）。任何乙個有效的機器學習演算法必有其歸納偏好，否則它將被假設空間中看似在訓練集上『』等效『』的假設所迷惑，而無法產生確定的學習結果。

奧卡姆剃刀原則：若有多個假設與觀察一致，則選最簡單的那個。------但是定義簡單與否卻又是一件不簡單的事情

多釋原則：主張保留與經驗觀察一致的所有假設--------------這與整合學習方面的研究相吻合

歸納偏好對應了學習演算法本身做出的關於「什麼樣的模型更好」的假設。在具體的現實問題中，這個假設是否成立。大多數時候直接決定了演算法能否取得很好的效能。

nfl原則（no free lunch）：當所有「問題」出現的機會相同、或問題同等重要時，無論是所謂的聰明演算法或者是「隨機亂猜」的笨拙演算法，他們的總誤差都是一樣的。----------------意味著，關於什麼學習演算法好的討論應該應用於實際具體的問題上，空空而談是毫無意義的。

發展歷程

符號學習：decision tree和基於邏輯的學習

連線學習：神經網路（黑箱模型）

統計學習：svm以及更一般的核方法（kernel methods）

機器學習第一章緒論

《機器學習》筆記第一章緒論

機器學習筆記第一章緒論

《機器學習》第一章緒論學習筆記

機器學習第一章緒論

《機器學習》筆記 第一章緒論

機器學習筆記 第一章緒論

《機器學習》 第一章 緒論 學習筆記

相關推薦

《機器學習》筆記第一章緒論

機器學習筆記第一章緒論

《機器學習》第一章緒論學習筆記