機器學習入門之緒論

要進行機器學習，先要有資料，假定我們收集了一批關於西瓜的資料，例如（色澤=淺白；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=硬挺；敲聲=清脆），每對括號內是一條記錄，「=」的意思是「取值為」：

這組記錄的集合稱為乙個資料集(data set)，其中每條記錄是關於乙個事件或物件（這裡是乙個西瓜的描述），稱為乙個「示例」(instance)或「樣本」(sample)，反應事件或物件在某方面的表現或性質的事項，例如「色澤"、「根蒂」、「敲聲」，稱為「屬性(attribute)或「特徵」(feature)。屬性張成的空間稱為「屬性空間」(attribute space)、「樣本空間」(sample space) 或「輸入空間」。例如我們把「色澤」、「根蒂」、「敲聲」作為三個座標軸，則它們張成乙個用於描述西瓜的三維空間，每個西瓜都可在這個空間中找到自己的座標位置。由於空間中的每個點對應乙個座標向量，因此我們也可把乙個示例稱為乙個**「特徵向量**」(feature vector)。

一般的，令d = 表示包含m個示例的資料集，每個示例由d個屬性描述（例如上面的西瓜資料使用了3個屬性），則每個示例xi=(xi1;xi2;,;xid)是d維樣本空間的的乙個分量，其中xij是xi在第j個屬性上的取值（例如上述第3個西瓜在第2個屬性上的值是「硬挺」），d稱為樣本xi的「維數」(demensionality)。

從資料中學得模型的過程稱為「學習」(learning)或訓練（training），這個過程通過執行某個學習演算法來完成。訓練過程中使用的資料稱為**「訓練資料**」(training data)，其中每個樣本稱為「訓練樣本」(training sample)，訓練樣本組成的集合稱為「訓練集」(training set)。學得模型對應了關於資料的某種潛在規律，因此亦「假設」(hypothesis);這種潛在規律自身，則稱為「真相」或「真實」(ground-truch),學習過程就是為了找出或逼近真相。

如果希望學得乙個能幫助我們判斷沒剖開的是不是「好瓜」的模型，僅有前面的示例資料顯然是不夠的。要建立這樣的關於「**」(prediction)的模型，我們需獲得訓練樣本的「結果」資訊，例如「（（色澤=青綠；根蒂=蜷縮；敲聲=濁響），好瓜）」。這裡關於示例結果的資訊。例如「好瓜」。稱為」標記「(label)；擁有了標記資訊的示例，則稱為」樣例「(example)。一般的，用(xi,yi)表示第i個樣例，其中yi是示例xi的標記。y是yi的集合，亦稱」標記空間「(label space)或」輸出空間「。

若我們欲**的是離散值，例如「好瓜」「壞瓜」，此類學習任務稱為分類（classification）；

機器學習入門之緒論

《機器學習》之緒論

機器學習之緒論部分

機器學習筆記之緒論

機器學習入門之緒論

《機器學習》之 緒論

機器學習之 緒論部分

機器學習筆記之緒論

相關推薦

《機器學習》之緒論

機器學習之緒論部分