機器學習中常見概念的區別與聯絡

2021-08-07 21:17:49 字數 3106 閱讀 5503

1.欠擬合:生成的擬合函式過於簡單(例如 h(

θ)=θ

0+θ1

x1)2.過擬合:生產的擬合函式過於精確(例如h(

θ)=θ

0+θ1

x1+.

..+θ

6x6 )

上圖中,左圖就是欠擬合的情況,曲線不能夠很好的反映出資料的變化趨勢;而右圖是過擬合的情況,因為曲線經過了每乙個樣本點,雖然在訓練集上誤差小了,但是曲線的波動很大,往往在測試集上會有很大的誤差。而中間圖則是比較好的曲線。

當訓練資料量很少時,容易發生過擬合,因為曲線會擬合這些少量資料點,而這些資料點往往不能代表資料的總體趨勢,導致曲線波動大以及發生嚴重偏離。

欠擬合時,模型在訓練集和測試集上都有很大誤差(高偏差);過擬合時,模型在訓練集上可能誤差很小,但是在測試集上誤差很大(高方差)。如果模型在訓練集上誤差很大,且在測試集上的誤差要更大的多,那麼該模型同時有著高偏差和高方差。

防止欠擬合方法:不要選用過於簡單的模型

防止過擬合方法:不要選用過於複雜的模型;資料集擴增(可以是尋找更多的訓練集,也可以是對原訓練集做處理,比如對原翻轉縮放裁剪等);正則化;early stopping(在測試集上的誤差率降到最低就停止訓練,而不是不斷降低在訓練集上的誤差)

l1正則化:在誤差函式的基礎上增加l1正則項: c=

c0+λ

n∑w|

w|l2正則化:在誤差函式的基礎上增加l2正則項: c=

c0+λ

2n∑w

w2l1正則化和l2正則化都能夠防止過擬合。簡單的來說,權值w越小,模型的複雜度越低(當w全為0時模型最簡單),對資料的擬合剛剛好(也就是奧卡姆剃刀法則)。如果從更加數學的解釋來看,我們看下圖:

可以看出,過擬合的時候,曲線要顧及每乙個點,最終形成的擬合函式波動很大。這就意味著函式在某些小區間裡的導數值(絕對值)非常大。而由於自變數值可大可小,所以只有係數足夠大,才能保證導數值很大。

l1正則化對應著lasso回歸模型,l2正則化對應著嶺回歸模型。lasso(l1正則化)得到的w往往比較稀疏,會出現很多0,因此能夠剔除無用特徵(降維)。

分類:輸入新樣本特徵,輸出類別(離散)。常見模型有:logistic回歸,softmax回歸,因子分解機,支援向量機,決策樹,隨機森林,bp神經網路,等等

回歸:輸入新樣本特徵,輸出**值(連續)。常見模型有:線性回歸,嶺回歸,lasso回歸,cart樹回歸,等等

引數學習演算法:模型有固定的引數列表θ0

,θ1.

..(比如線性回歸)

非引數學習演算法:模型中引數的數目會隨著訓練集的增加而線性增長,或者引數的值會隨著測試集的變化而變化(比如區域性加權回歸lwr就屬於非引數學習演算法)

偏差:描述的是**值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實資料。 高偏差對應的是欠擬合。高偏差時,模型在訓練集和測試機上都有很大誤差。

方差:描述的是**值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,資料的分布越分散。 高方差對應的是過擬合。高方差時,模型在訓練集上的誤差很小,但是在測試集上的誤差很大。

如果模型在訓練集上誤差很大,且在測試集上的誤差要更大的多,那麼該模型同時有著高偏差和高方差。

監督學習:訓練集中的每個樣本既有特徵向量x,也有標籤y。根據樣本的y來對模型進行「監督」,調整模型的引數。監督學習對應的是分類和回歸演算法。

無監督學習:訓練集中的每個樣本只有特徵向量x,沒有標籤y。根據樣本之間的相似程度和聚集分布來對樣本進行聚類。無監督學習對應的是聚類演算法。

分類:事先定義好了類別,類別數不變。當訓練好分類器後,輸入乙個樣本,輸出所屬的分類。分類模型是有監督。

聚類:事先沒有定義類別標籤,需要我們根據某種規則(比如距離近的屬於一類)將資料樣本分為多個類,也就是找出所謂的隱含類別標籤。聚類模型是無監督的。

判別模型:由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型,即判別模型。

生成模型:由資料學習聯合概率密度分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型:p(y|x)= p(x,y)/ p(x)。

歸一化方法:

主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速。

歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。

標準化方法:

歸一化,一般的方法是 (x-min(x))/(max(x)-min(x)) 。 標準化,一般方法是(x-mean(x))/std(x) 。 其中mean(x)代表樣本均值,std(x)代表樣本標準差。這兩種方法都是屬於線性轉換,都是按比例縮放的。

歸一化和標準化的好處: c

ov(x

,y)=

e[(x

−μx)

(y−μ

y)]

當x增大y也增大時,說明兩變數是同向變化的,這時協方差就是正的;當x增大y卻減小時,說明兩個變數是反向變化的,這時x協方差就是負的。協方差越大,說明同向程度越高;協方差越小,說明反向程度越高。

相關係數:也表示兩個變數在變化過程中的變化相似程度。但是進行了歸一化,剔除了變化幅度數值大小的的影響,僅單純反映了每單位變化時的相似程度。 ρ=

cov(

x,y)

σxσy

翻譯一下:相關係數就是協方差分別除以x的標準差和y的標準差。

當相關係數為1時,兩個變數正向相似度最大,即x變大一倍,y也變大一倍;當相關係數為0時,兩個變數的變化過程完全沒有相似度;當相關係數為-1時,兩個變數的負向相似度最大,即x變大一倍,y縮小一倍。

機器學習常見概念

最常見的兩種機器學習演算法 supervised learning 給演算法乙個資料集,其中包含 the right answer,即帶有標籤。演算法的目的進行 給出更多的正確答案 包括回歸問題 regression problem eg房價 設法 乙個連續值輸出 分類問題 classificati...

機器學習和資料探勘的聯絡與區別

從資料分析的角度來看,資料探勘與機器學習有很多相似之處,但不同之處也十分明顯,例如,資料探勘並沒有機器學習探索人的學習機制這一科學發現任務,資料探勘中的資料分析是針對海量資料進行的,等等。從某種意義上說,機器學習的科學成分更重一些,而資料探勘的技術成分更重一些。本文選自 大資料架構詳解 從資料獲取到...

機器學習中常見的損失函式

一般來說,我們在進行機器學習任務時,使用的每乙個演算法都有乙個目標函式,演算法便是對這個目標函式進行優化,特別是在分類或者回歸任務中,便是使用損失函式 loss function 作為其目標函式,又稱為代價函式 cost function 損失函式是用來評價模型的 值y f x y f x 與真實值...