機器學習筆記（周志華）1

第一章緒論

1.1引言

機器學習致力於研究如何通過計算的手段，利用經驗來改善系統自身的效能

機器學習所研究的主要內容，是關於在計算機上從資料中產生「模型」的演算法，即「學習演算法」

「模型」泛指從資料中學得的結果

1.2基本術語

資料資料集示例/樣本/特徵向量屬性/特徵屬性值屬性空間/樣本空間/輸入空間維數學習/訓練訓練資料訓練樣本訓練集假設真相/真實學習器樣例標記空間/輸出空間分類回歸正類反類多分類測試測試樣本聚類簇監督學習無監督學習泛化分布

1.3假設空間

歸納學習

廣義的歸納學習大體相當於從樣例中學習，狹義的歸納學習則要求從訓練資料中學得概念，因此亦稱為「概念學習」或「概念形成」

可能有多個假設與訓練集一致，即存在著乙個與訓練集一致的「假設集合」，稱之為「版本空間」

1.4歸納偏好

機器學習演算法在學習過程中對某種型別假設的偏好，稱為「歸納偏好」，簡稱為「偏好」

「奧卡姆剃刀」是一種常用的，自然科學研究中最基本的原則，即「若有多個假設與觀察一致，則選最簡單的那個」

「沒有免費的午餐」定理（nfl定理）：由於對所有可能函式的相互補償，最優化演算法的效能是等價的。該定理暗指，沒有其它任何演算法能夠比搜尋空間的線性列舉或者純隨機搜尋演算法更優。該定理只是定義在有限的搜尋空間，對無限搜尋空間結論是否成立尚不清楚。

nfl定理有乙個重要前提：所有問題出現的機會相同或者所有問題同等重要

nfl定理最重要的寓意，是讓我們清楚地認識到，脫離具體問題，空泛的談論什麼學習演算法最好毫無意義

1.5發展歷程

機器學習劃分為「機械學習」「示教學習」「模擬學習」「歸納學習」

符號主義學習，其代表包括決策樹和基於邏輯的學習（著名代表是歸納邏輯程式設計ilp）

基於神經網路的連線主義學習「黑箱」模型 bp演算法

統計學習，代表技術是支援向量機（svm）以及更一般的「核方法」

深度學習，狹義地說就是很多層的神經網路

1.6應用現狀

計算機視覺，自然語言處理