機器學習基礎

1.概念

機器學習是由軟體工程、電腦科學與數學、統計學交叉二形成的一門學科。「機器學習」中的學習，指的是採用一些演算法來分析資料的基本結構，並且辨別其中的訊號和雜訊，從而提取出盡可能多的資訊的過程。

機器學習的三大核心包括:觀測資料、從中學習以及自動化識別。

2.基本術語

資料集(data set)：記錄每條關於乙個事件或者物件的描述。每個物件內包含了描述該物件的各個屬性(特徵)，屬性上的取值即屬性值，屬性張成的空間稱為「屬性空間」。

屬性空間：根據資料集中各物件的某幾種屬性所構成的空間，例如由「色澤」、「大小」、「形狀」組成的三維空間，具有上述三種屬性的物件在這個空間內都能找到自己的座標位置。空間中的每個點對應乙個座標向量，因此我們也把每乙個物件稱為乙個「特徵向量」。

示例：

記d=表示包含m個示例的資料集，每個示例由d個屬性描述，則每個示例可以表示為xi=每個xi都是d維樣本空間x中的乙個向量，其中xij是xi在第j個屬性上的取值，d稱為樣本xi的維數。

有了前面提及的示例資料集，我們還需要結果資料集，將資料與結果一一對應，達到「**」的目的。例如(xi,yi)表示具有xi屬性的物件，他具有yi的性質，其中yi是示例xi的標記，y表示所有yi的集合，稱之為標記空間或者輸出空間。

有了資料集和結果集，接下來的工作便是**。**根據需要的結果可以分為多種情況：

(1) **的是離散值，此類學習任務稱為「分類」

(2) **的是連續值，此類學習任務稱為「回歸」

通常，**任務是希望通過對訓練集進行學習，建立乙個從輸入空間x到輸出空間y的對映建立乙個從輸入空間x到輸出空間y的對映f(x,y)。

經過訓練之後，使用模型進行**的過程稱為測試。被測試的樣本稱為測試樣本。此外我們還可以做「聚類處理」，可能會利用到相似度的概念，通常根據各個示例在屬性空間中的向量夾角來表徵不同示例之間的相似度，例如余弦相似度，根據相似度進行聚類。聚類的結果可能會展現出一些潛在的概念。

根據訓練資料是否擁有標記資訊，學習任務可以大致劃分為兩類：「監督學習」和「非監督學習」，分類和回歸是前者的代表，聚類是後者的代表。

機器學習的本質是使學得的模型能夠很好的適用於「新樣本」，而不僅僅是在訓練樣本上工作的很好。學得模型適用於新樣本的能力，稱之為泛化能力。

3.假設空間

歸納(induction)與演繹(deduction)是科學推理的兩大基本手段。前者是從特殊到一半的泛化過程，即從具體的事實歸結出一般性規律；後者是從一般到特殊的特化過程，即從基礎原理推演出具體情況。

我們可以把學習過程看做乙個在所有假設組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集「匹配」的假設。假設一旦確定，假設空間極其規模大小也就確定了。這裡我們利用前面所提到的物件進行示例，如「色澤=？+大小=？+形狀=？」的可能取值形成假設空間。

顯示問題中我們通常需要面對很大的假設空間，但學習過程是基於有限樣本進行的，因此可能有多個假設與訓練集一致，即存在著乙個與訓練集一致的「假設集合」，我們稱之為版本空間。

4.歸納偏好

在假設空間中往往會遇見如下問題，例如有三個與訓練集一致的假設，但他們與對應的模型在面臨新樣本的時候會產生不同的輸出。此時若只有之前的訓練樣本，是無法判斷三個假設中的哪個輸出是最佳答案。但是對於乙個具體的學習演算法而言，它必須要產生乙個模型。這是，學習演算法本身的「偏好」就會起到關鍵作用。

機器學習演算法在學習過程中對某種型別假設的偏好，稱為「歸納偏好」或簡稱為偏好。任何乙個有效的機器學習演算法有其歸納偏好，否則它將被假設空間中看似在訓練集上「等效」的假設所迷惑。偏好本質上來說就是演算法更傾向於物件示例的某一種屬性。

偏好的作用

在回歸學習中，回歸的本質就是找到一條曲線能夠穿過所有訓練樣本的點。針對有限的點，存在著許多曲線都能夠穿過所有的點。此時學習演算法必定會需要某種偏好，才能產出它認為正確的模型。

那麼我們如何在引導演算法確立「正確的」偏好。奧卡姆剃刀是一種常用的、自然科學研究中最基本的原則，即「若有多個假設與觀察一直，則選擇最簡單的那種」。這種原則在回歸學習中更加直觀，通常我們認為的「回歸線更平滑」則意味著「更簡單」，這裡其實就運用了奧卡姆剃刀原理。

但是奧卡姆剃刀原理有存在乙個新的問題，如何判斷多個假設中哪乙個才是最簡單的。此時需要借助其他機制才能解決。

歸納偏好對應了學習演算法本身所作出的關於「什麼樣的模型更好」的假設。在具體的現實問題中，這個假設是否成立，即演算法的歸納偏好是否與問題本身匹配，大多數時候直接決定了演算法能否取得好的效能。

學習演算法一定是針對實際問題的，脫離實際問題則不存在什麼最優學習對演算法，因為根據nfl定理面對所有問題的時候，所有的學習演算法的期望都是一樣的。因此學習演算法自身的歸納偏好於問題是否匹配，往往會起到決定性的作用。