機器學習基本概念梳理(一)

2021-08-29 23:35:42 字數 2160 閱讀 9894

1.輸入空間:輸入所有可能取值的集合

2.輸出空間:輸出所有可能的集合

3.特徵空間:所有特徵向量存在的空間

4.統計學習方法三要素:模型、策略、演算法。

5.監督學習的目的在於找到乙個從輸入到輸出的對映,分為學習和**。

6.期望損失:又稱風險函式,r=∫

l(y,

f(x)

)p(x

,y)d

xd

yr=\int_l(y,f(x))p(x,y)dxdy

r=∫l​(

y,f(

x))p

(x,y

)dxd

y,用經驗風險估計期望風險。

7.經驗風險最小化:模型關於訓練資料集的平均損失稱為經驗風險,經驗風險最小的模型。min

f∑i=

1nl(

yi,f

(xi)

)min_f\sum_^nl(y_i,f(x_i))

minf​∑

i=1n

​l(y

i​,f

(xi​

)),樣本容量足夠大時,經驗風險最小化能夠保證有很好的學習效果。樣本小則可能產生過擬合。

8.結構風險最小化:是為了防止過擬合而提出來的策略,等價於正則化。它等於經驗風險加上表示模型複雜度的正則化項或者罰項。rsr

m(f)

=1n∑

i=1n

l(yi

,f(x

i))+

rj(f

)r_(f)=\frac\sum_^nl(y_i,f(x_i))+rj(f)

rsrm​(

f)=n

1​∑i

=1n​

l(yi

​,f(

xi​)

)+rj

(f),其中r

>=0

r>=0

r>=0

為懲罰係數,用來權衡經驗風險和模型複雜度。結構風險小需要經驗風險和模型複雜度同時小。

9.過擬合:指學習時選擇的模型所包含的引數過多,以致於出現這一模型對已知資料**得很好,但對未知資料**得很差的現象。減小過擬合一般用正則化或交叉驗證。

10.正則化:結構風險最小化策略的實現,在經驗風險上加上乙個正則化項或罰項。模型越複雜,正則化值就越大。正則化的作用是選擇經驗風險和模型複雜度同時較小的模型。

11.奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是最好的模型。

12.交叉驗證:隨機將資料集切分為三部分,分為訓練集、驗證集和測試集。訓練集用來訓練模型,驗證集用於模型的選擇,測試集用於最終對學習方法的評估。重複使用資料,在此基礎上反覆進行訓練測試,最終選擇對驗證集有最小誤差的模型。

13.泛化能力:指由該方法學習到的模型對未知資料的**能力。通過測試誤差來評價學習方法的泛化能力。

14.泛化誤差:用這個模型對未知資料**的誤差。泛化誤差反應了學習方法的泛化能力。泛化誤差就是所學習到的模型的期望風險。

15.分類問題:是監督學習的乙個核心問題。當輸出變數取有限個離散值時,**問題便成為分類問題。包括學習和分類兩個過程。首先根據有效的學習方法學習乙個分類器,然後利用學習的分類器對新的輸入例項進行分類。

16:精確率p=t

ptp+

fp

p=\frac

p=tp+f

ptp​

; 召回率r=t

ptp+

fn

r=\frac

r=tp+f

ntp​

; 其中tptp

tp為正類**為正類數目、fnfn

fn為正類**為負類數目、fpfp

fp為負類**為正類數目、tntn

tn為負類**為負類數目。通俗解釋:精確率就是分類正確的正類除以分類之後的正類數目;召回率就是分類正確的正類除以分類之前的正類數目。

17:標註問題:也是乙個監督學習問題。是分類問題的乙個推廣,是更複雜的結構**問題的簡單形式。它的輸入是乙個觀測序列,輸出是乙個標記序列或者狀態序列。目標在於學習乙個模型,使它能夠對觀測序列給出標記序列作為**。

18:回歸問題:監督學習的問題。用於**輸入變數和輸出變數之間的關係。回歸模型正是表示從輸入變數到輸出變數之間對映的函式。等價於函式擬合,選擇一條函式曲線使其能夠很好的擬合已知資料且能夠很好地**未知資料。分為學習**兩個過程。最常用的損失函式為平方損失函式,此時可以用最小二乘法求解。

機器學習(一)(基本概念的梳理)(西瓜書學習筆記)

一批西瓜的資料 a1 色澤 青綠 根蒂 蜷縮 敲聲 濁響 a2 色澤 烏黑 根蒂 稍蜷 敲聲 沉悶 a3 色澤 淺白 根蒂 硬挺 敲聲 清脆 a1 a2 a3叫做資料集 data set 以a1為例 a1叫做樣本 sample 示例 instance a1中的 色澤 叫做屬性 attribute a...

機器學習基本概念

什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...

機器學習基本概念

1.基本的概念 領域集 乙個任意的集合 集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集 學習器所追求的結果集合。可以為,器想要得到的最終資料。訓練資料 帶標籤的領域及元素集合,通常會組成乙個區域性聚合s,也叫作訓練集。2.機器學習的一般流程 採集資料 標記 訓練 得到 器 乙個學習...