機器學習學習筆記（一）第一章基本概念

看完了西瓜書的第一章，做乙個簡單的筆記。

一、基本概念

屬性（attribute）/特徵（feature）-反映事件或物件在某方面的表現或性質的事項，屬性張成的空間稱為「屬性空間」（attribute space）/「樣本空間」（sample space）。

示例（instance）/樣本（sample）-關於乙個事件或物件的描述，每個示例由d個屬性描述可表示為

資料集（data set）-樣本組成的集合，

訓練集（training set）-訓練/學習過程中使用的資料的集合，其中每個樣本稱為乙個訓練樣本（training sample）。

假設（hypothesis）與真實（ground-truth）-學得模型對應了關於資料的某種潛在規律，這種潛在規律自身成為真實/真相，設x為樣本空間，x為樣本，y為樣本的標記，則f(x)表示希望模型學得的真實，則h(x)表示一種假設。

樣例（example）-擁有了標記（label）資訊的示例，標記是關於示例結果的資訊，一般用

分類（classification）/回歸（regression）-**的是離散值的學習任務稱為分類，**連續值的學習任務稱為回歸，只涉及兩個類別稱為二分類（binary classification），通常稱其中乙個為正類（positive class）乙個為反類（nagative class），涉及多個類別稱為多分類（multi-class classification）。

聚類（clustering）-將訓練集中的樣本分成若干組，每組稱為乙個「簇」（cluster），這些自動形成的簇可能對應一些潛在概念劃分。

根據訓練資料是否擁有標記資訊，學習任務可大致劃分為兩大類：「監督學習」（supervised learning）和「無監督學習」（unsupervised learning），分類和回歸是前者的代表，而聚類則是後者的代表。

泛化（generalization）能力-學得模型適用於新樣本的能力。

假設空間（hypothesis space）-所有假設組成的空間，對於樣本空間x，所有可能的h(x)組成的空間就是假設空間，學習過程可以看作是在假設空間內的搜尋，搜尋過程中不斷的刪除與正例不一致的假設和反例一致的假設。

版本空間（version space）-與訓練集一致的假設集合，即版本空間內所有假設在訓練集上的輸出一致。

歸納偏好（inductive bias）-學習演算法在學習過程中對某種型別假設的偏好，小概念（奧卡姆剃刀）。

nfl定理證明過程中對指示函式的求和用到了二項式定理的結論。

二、習題

1.1 模擬搜尋過程，從正例的特例開始泛化，刪除與反例相同的假設即可得到版本空間，大小為7。

1.2 不考慮冗餘時是所有假設的組合數，考慮冗餘則較難。

1.3 在匹配屬性盡可能多的情況下選擇匹配樣本多的假設。

1.4 對評估函式的求和為常數，看到這一點證明便簡單了。

1.5 輸入分類、搜尋匹配、結果分類、搜尋等環節。

機器學習學習筆記（一）第一章基本概念

筆記機器學習第一章

機器學習第一章

機器學習第一章

機器學習 學習筆記（一）第一章 基本概念

筆記 機器學習第一章

機器學習第一章

機器學習第一章

相關推薦

機器學習學習筆記（一）第一章基本概念

筆記機器學習第一章