機器學習之一基本術語

2021-09-25 01:14:11 字數 1602 閱讀 6908

1、一組記錄的集合成為資料集。

2、關於乙個事件或物件的描述,稱為乙個「例項」或「樣本」也稱「特徵向量」,比如對於乙隻貓的描述。

3、反映事件或物件在某方面的表現或性質的事項例如貓的「毛色」,「瞳色」稱為屬性或特徵。

4、屬性上取值例如:「布偶貓」,「暹羅貓」,「摺耳貓」描述屬性的取值稱為屬性值。

5、屬性上張成的空間稱為「屬性空間」,「樣本空間」或「輸入空間」。例如貓的三個屬性作為三個座標軸,則它們張成乙個用於描述貓的三維空間,空間中的每個點對應每個樣本。

6、每個示例由d個屬性描述(例如:用於描述貓我們使用了3個屬性,則d=3),d稱為樣本x的「維數」(dimensionality)。

7、從資料中學得模型的過程稱為「學習」(learning)或「泛化」(training)。

8、訓練過程中使用的資料稱為「訓練資料」(training data),其中每個樣本稱為乙個「訓練樣本」,訓練樣本組成的集合稱為訓練集。學習得到的模型對應關於某種潛在的規則,稱為「假設」,潛在規律自身,則稱為「真相」或「真實」,學習和訓練就是為了不斷找出逼近真相的過程。

9、關於例項的結果資訊,稱為標記,比如可判斷純種.這個結果就是標記,標記的集合也稱標記空間(label space)或稱輸出空間。如果標記是乙個離散值如:純種、串串。此類學習任務稱為「分類」(classification),若**的是連續的值如純種的程度為:0.95、0.5、0.3則此類學習任務稱為「回歸」(regression)。其中分類中對於只涉及兩個類別的稱為「二分類」(binary classification),通常有乙個「正類」(positive class)和「反類」(negative class);涉及多個類別時,則稱為「多分類」(multi-class classification)任務。

eg:

回歸一般表示如:

y =2

x+1(

x>=0

);

y=2x+1(x>=0);

y=2x+1

(x>=0

);分類一般表示如:

y =−

1(

x<0)

y=1(

x>0)

y=-1 (x<0) y=1 ( x>0 )

y=−1(x

<0)

y=1(

x>0)

10、根據訓練資料是否擁有標記資訊,學習任務可劃分為兩大類:監督學習和無監督學習,分類和回歸均屬於前者,而聚類則屬於後者。

11、學得模型適用於新的樣本的能力稱為「泛化能力」(generalization),具有強泛化能力的模型能很好的使用於整個樣本空間。

12、假設空間

學習過程中可以看做是乙個在所有假設(hypothesis)組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配」(fit)的假設,即能夠將訓練集中的貓的血統判斷正確的假設。

13、現實問題中我們常面臨很大的假設空間,但學習過程是基於有限樣本訓練集的進行的,因此,可能有多個假設與訓練集一致,即存在著乙個與訓練集一致的「假設集合」,我們稱之為「版本空間」。

14、機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」(inductive bias),或簡稱為「偏好」。

機器學習筆記(一) 基本術語

就是記錄學習的過程 示例 色澤 青綠,根蒂 蜷縮,敲聲 濁響 好瓜 真實情況 結果 結果 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 一般查準率高時,查全率往往偏低 查全率高時,查準率往往偏低 函式值增加量 變數增加量,導數對應的計算公式如下 定義形式 計算公式 常數導...

深度學習筆記之一些基本術語

不多說,直接上乾貨!前言 最近打算稍微系統的學習下deep learing的一些理論知識,打算採用andrew ng的網頁教程ufldl tutorial,據說這個教程寫得淺顯易懂,也不太長。不過在這這之前還是複習下machine learning的基礎知識,見網頁 內容其實很短,每小節就那麼幾分鐘...

機器學習基本過程(之一)

基本過程 定義模型 訓練模型 採用tensorflow不同介面的實現方法 使用keras 使用 estimator 構建模型 tensorflow低階api 1.繼承 tf.keras.model,定義網路每一層。import tensorflow as tf class mymodel tf.ke...