機器學習之一基本術語

1、一組記錄的集合成為資料集。

2、關於乙個事件或物件的描述，稱為乙個「例項」或「樣本」也稱「特徵向量」，比如對於乙隻貓的描述。

3、反映事件或物件在某方面的表現或性質的事項例如貓的「毛色」，「瞳色」稱為屬性或特徵。

4、屬性上取值例如：「布偶貓」，「暹羅貓」，「摺耳貓」描述屬性的取值稱為屬性值。

5、屬性上張成的空間稱為「屬性空間」，「樣本空間」或「輸入空間」。例如貓的三個屬性作為三個座標軸，則它們張成乙個用於描述貓的三維空間，空間中的每個點對應每個樣本。

6、每個示例由d個屬性描述（例如：用於描述貓我們使用了3個屬性，則d=3），d稱為樣本x的「維數」（dimensionality）。

7、從資料中學得模型的過程稱為「學習」（learning）或「泛化」（training）。

8、訓練過程中使用的資料稱為「訓練資料」（training data），其中每個樣本稱為乙個「訓練樣本」，訓練樣本組成的集合稱為訓練集。學習得到的模型對應關於某種潛在的規則，稱為「假設」，潛在規律自身，則稱為「真相」或「真實」，學習和訓練就是為了不斷找出逼近真相的過程。

9、關於例項的結果資訊，稱為標記，比如可判斷純種.這個結果就是標記,標記的集合也稱標記空間（label space）或稱輸出空間。如果標記是乙個離散值如：純種、串串。此類學習任務稱為「分類」（classification），若**的是連續的值如純種的程度為：0.95、0.5、0.3則此類學習任務稱為「回歸」（regression）。其中分類中對於只涉及兩個類別的稱為「二分類」（binary classification），通常有乙個「正類」（positive class）和「反類」（negative class）；涉及多個類別時，則稱為「多分類」（multi-class classification）任務。

eg：

回歸一般表示如：

y =2

x+1(

x>=0

);

y=2x+1(x>=0);

y=2x+1

(x>=0

);分類一般表示如：

y =−

1（

x<0）

y=1(

x>0)

y=-1 （x<0） y=1 ( x>0 )

y=−1（x

<0）

y=1(

x>0)

10、根據訓練資料是否擁有標記資訊，學習任務可劃分為兩大類：監督學習和無監督學習，分類和回歸均屬於前者，而聚類則屬於後者。

11、學得模型適用於新的樣本的能力稱為「泛化能力」（generalization），具有強泛化能力的模型能很好的使用於整個樣本空間。

12、假設空間

學習過程中可以看做是乙個在所有假設（hypothesis）組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集「匹配」（fit）的假設，即能夠將訓練集中的貓的血統判斷正確的假設。

13、現實問題中我們常面臨很大的假設空間，但學習過程是基於有限樣本訓練集的進行的，因此，可能有多個假設與訓練集一致，即存在著乙個與訓練集一致的「假設集合」，我們稱之為「版本空間」。

14、機器學習演算法在學習過程中對某種型別假設的偏好，稱為「歸納偏好」（inductive bias），或簡稱為「偏好」。

機器學習之一基本術語

機器學習筆記（一）基本術語

深度學習筆記之一些基本術語

機器學習基本過程（之一）

機器學習之一基本術語

機器學習筆記（一） 基本術語

深度學習筆記之一些基本術語

機器學習基本過程（之一）

相關推薦

機器學習筆記（一）基本術語