機器學習（一）（基本概念的梳理）（西瓜書學習筆記）

一批西瓜的資料：

a1（色澤=青綠；根蒂=蜷縮；敲聲=濁響）

a2（色澤=烏黑；根蒂=稍蜷；敲聲=沉悶）

a3（色澤=淺白；根蒂=硬挺；敲聲=清脆）

a1+a2+a3叫做資料集（data set）

以a1為例：

a1叫做樣本（sample）/示例（instance）

a1中的「色澤」叫做屬性（attribute）

a1中的「青綠」叫做屬性值（attribute value）

以這個資料集為例，由色澤、根蒂和敲聲這三個屬性組成，而這三個屬性張成的乙個三維空間就叫做屬性空間（attribute space）

由於空間中的每乙個點對應乙個座標向量，因此我們把乙個示例（instance）叫做乙個特徵向量（feature vector）

一般地，用（標記空間（label space）或輸出空間

分類（classification）：**的是離散值，例如「好瓜」、「壞瓜」，特別地，對只涉及兩個類別的「二分類（binary classification）」，通常其中乙個稱為「正類（positive class）」，另乙個叫做「反類（negative class）」。涉及多個類時，則稱為「多分類（multi-class classification）」

回歸（regression）：**的是連續值，；例如西瓜的成熟度0.95、0.36等

學習模型後，使用其進行**的過程叫做測試（testing），被測試的樣本叫做測試樣本（testing sample）

對西瓜做聚類（clustering），即將訓練集中的西瓜分成若干組，每個組稱為乙個簇（cluster）;這些自動形成的簇可能對應一些潛在的概念的劃分，例如「本地瓜」、『外地瓜』等，且這樣的概念我們事先是不知道的，而且學習過程中使用的訓練樣本不能擁有標記資訊。

根據訓練資料是否擁有標記，可將學習任務分為兩大類：「監督學習（supervised learning）（eg.分類和回歸）」和「無監督學習（unsupervised learning）（eg.聚類）」

學得模型適用於新樣本的能力稱為泛化（generalization）能力

機器學習（一）（基本概念的梳理）（西瓜書學習筆記）

機器學習基本概念梳理（一）

機器學習西瓜書基本術語

機器學習西瓜書閱讀筆記（一）基礎概念

機器學習（一）（基本概念的梳理）（西瓜書學習筆記）

機器學習基本概念梳理（一）

機器學習西瓜書 基本術語

機器學習西瓜書閱讀筆記 （一）基礎概念

相關推薦

機器學習西瓜書基本術語

機器學習西瓜書閱讀筆記（一）基礎概念