機器學習入門之緒論

2021-10-03 06:43:49 字數 1493 閱讀 3777

要進行機器學習,先要有資料,假定我們收集了一批關於西瓜的資料,例如(色澤=淺白;根蒂=蜷縮;敲聲=濁響),(色澤=烏黑;根蒂=硬挺;敲聲=清脆),每對括號內是一條記錄,「=」的意思是「取值為」:

這組記錄的集合稱為乙個資料集(data set),其中每條記錄是關於乙個事件或物件(這裡是乙個西瓜的描述),稱為乙個「示例」(instance)或「樣本」(sample),反應事件或物件在某方面的表現或性質的事項,例如「色澤"、「根蒂」、「敲聲」,稱為「屬性(attribute)或「特徵」(feature)。屬性張成的空間稱為「屬性空間」(attribute space)、「樣本空間」(sample space) 或「輸入空間」。例如我們把「色澤」、「根蒂」、「敲聲」作為三個座標軸,則它們張成乙個用於描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的座標位置。由於空間中的每個點對應乙個座標向量,因此我們也可把乙個示例稱為乙個**「特徵向量**」(feature vector)。

一般的,令d = 表示包含m個示例的資料集,每個示例由d個屬性描述(例如上面的西瓜資料使用了3個屬性),則每個示例xi=(xi1;xi2;,;xid)是d維樣本空間的的乙個分量,其中xij是xi在第j個屬性上的取值(例如上述第3個西瓜在第2個屬性上的值是「硬挺」),d稱為樣本xi的「維數」(demensionality)。

從資料中學得模型的過程稱為「學習」(learning)或訓練(training),這個過程通過執行某個學習演算法來完成。訓練過程中使用的資料稱為**「訓練資料**」(training data),其中每個樣本稱為「訓練樣本」(training sample),訓練樣本組成的集合稱為「訓練集」(training set)。學得模型對應了關於資料的某種潛在規律,因此亦「假設」(hypothesis);這種潛在規律自身,則稱為「真相」或「真實」(ground-truch),學習過程就是為了找出或逼近真相。

如果希望學得乙個能幫助我們判斷沒剖開的是不是「好瓜」的模型,僅有前面的示例資料顯然是不夠的。要建立這樣的關於「**」(prediction)的模型,我們需獲得訓練樣本的「結果」資訊,例如「((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)」。這裡關於示例結果的資訊。例如「好瓜」。稱為」標記「(label);擁有了標記資訊的示例,則稱為」樣例「(example)。一般的,用(xi,yi)表示第i個樣例,其中yi是示例xi的標記。y是yi的集合,亦稱」標記空間「(label space)或」輸出空間「。

若我們欲**的是離散值,例如「好瓜」 「壞瓜」,此類學習任務稱為分類(classification);

《機器學習》之 緒論

學習的定義 對於某類任務t和效能度量p,如果乙個電腦程式在t上以p衡量的效能隨著經驗e而自我完善,那麼我們稱這個電腦程式在從經驗e中學習。設計乙個學習系統 選取訓練經驗的型別,關鍵屬性是訓練經驗能否為系統的決策提供直接或間接的反饋 學習器可以在多大的程度上控制訓練樣例序列 訓練樣例的分布能多好地表示...

機器學習之 緒論部分

緒論部分內容主要包含機器學習發展歷程的簡介,機器學習的大致介紹,以及專業術語的介紹。雖然並無具體的演算法介紹,但是對於正本書的理解大有幫助。1.機器學習的發展歷程 現如今比較承認的機器學習 machine learning 的定義是 不顯示程式設計地賦予計算機能力的研究領域 薩繆爾 關於機器學習的分...

機器學習筆記之緒論

1.1引言 機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型 model 的演算法,即 學習演算法 learning algorithm 1.2基本術語 資料集 data set 其中每條記錄是關於乙個事件或物件的描述,稱為乙個 示例 instance 或 樣本 sample 特徵向量 ...