機器學習基本概念梳理（一）

1.輸入空間：輸入所有可能取值的集合

2.輸出空間：輸出所有可能的集合

3.特徵空間：所有特徵向量存在的空間

4.統計學習方法三要素：模型、策略、演算法。

5.監督學習的目的在於找到乙個從輸入到輸出的對映，分為學習和**。

6.期望損失：又稱風險函式，r=∫

l(y,

f(x)

)p(x

,y)d

yr=\int_l(y,f(x))p(x,y)dxdy

r=∫l(

y,f(

x))p

(x,y

)dxd

y,用經驗風險估計期望風險。

7.經驗風險最小化：模型關於訓練資料集的平均損失稱為經驗風險，經驗風險最小的模型。min

f∑i=

1nl(

yi,f

(xi)

)min_f\sum_^nl(y_i,f(x_i))

minf∑

i=1n

l(y

i,f

(xi

)),樣本容量足夠大時，經驗風險最小化能夠保證有很好的學習效果。樣本小則可能產生過擬合。

8.結構風險最小化：是為了防止過擬合而提出來的策略，等價於正則化。它等於經驗風險加上表示模型複雜度的正則化項或者罰項。rsr

m(f)

=1n∑

i=1n

l(yi

,f(x

i))+

rj(f

)r_(f)=\frac\sum_^nl(y_i,f(x_i))+rj(f)

rsrm(

f)=n

1∑i

=1n

l(yi

,f(

xi)

)+rj

(f),其中r

>=0

r>=0

為懲罰係數，用來權衡經驗風險和模型複雜度。結構風險小需要經驗風險和模型複雜度同時小。

9.過擬合：指學習時選擇的模型所包含的引數過多，以致於出現這一模型對已知資料**得很好，但對未知資料**得很差的現象。減小過擬合一般用正則化或交叉驗證。

10.正則化：結構風險最小化策略的實現，在經驗風險上加上乙個正則化項或罰項。模型越複雜，正則化值就越大。正則化的作用是選擇經驗風險和模型複雜度同時較小的模型。

11.奧卡姆剃刀原理：在所有可能選擇的模型中，能夠很好地解釋已知資料並且十分簡單才是最好的模型。

12.交叉驗證：隨機將資料集切分為三部分，分為訓練集、驗證集和測試集。訓練集用來訓練模型，驗證集用於模型的選擇，測試集用於最終對學習方法的評估。重複使用資料，在此基礎上反覆進行訓練測試，最終選擇對驗證集有最小誤差的模型。

13.泛化能力：指由該方法學習到的模型對未知資料的**能力。通過測試誤差來評價學習方法的泛化能力。

14.泛化誤差：用這個模型對未知資料**的誤差。泛化誤差反應了學習方法的泛化能力。泛化誤差就是所學習到的模型的期望風險。

15.分類問題：是監督學習的乙個核心問題。當輸出變數取有限個離散值時，**問題便成為分類問題。包括學習和分類兩個過程。首先根據有效的學習方法學習乙個分類器，然後利用學習的分類器對新的輸入例項進行分類。

16：精確率p=t

ptp+

p=\frac

p=tp+f

ptp

; 召回率r=t

ptp+

r=\frac

r=tp+f

ntp

; 其中tptp

tp為正類**為正類數目、fnfn

fn為正類**為負類數目、fpfp

fp為負類**為正類數目、tntn

tn為負類**為負類數目。通俗解釋：精確率就是分類正確的正類除以分類之後的正類數目；召回率就是分類正確的正類除以分類之前的正類數目。

17：標註問題：也是乙個監督學習問題。是分類問題的乙個推廣，是更複雜的結構**問題的簡單形式。它的輸入是乙個觀測序列，輸出是乙個標記序列或者狀態序列。目標在於學習乙個模型，使它能夠對觀測序列給出標記序列作為**。

18：回歸問題：監督學習的問題。用於**輸入變數和輸出變數之間的關係。回歸模型正是表示從輸入變數到輸出變數之間對映的函式。等價於函式擬合，選擇一條函式曲線使其能夠很好的擬合已知資料且能夠很好地**未知資料。分為學習**兩個過程。最常用的損失函式為平方損失函式，此時可以用最小二乘法求解。

機器學習基本概念梳理（一）

機器學習（一）（基本概念的梳理）（西瓜書學習筆記）

機器學習基本概念

機器學習基本概念

相關推薦