機器學習中常見概念的區別與聯絡

1.欠擬合：生成的擬合函式過於簡單（例如 h(

θ)=θ

0+θ1

x1）2.過擬合：生產的擬合函式過於精確（例如h(

θ)=θ

0+θ1

x1+.

..+θ

6x6 ）

上圖中，左圖就是欠擬合的情況，曲線不能夠很好的反映出資料的變化趨勢；而右圖是過擬合的情況，因為曲線經過了每乙個樣本點，雖然在訓練集上誤差小了，但是曲線的波動很大，往往在測試集上會有很大的誤差。而中間圖則是比較好的曲線。

當訓練資料量很少時，容易發生過擬合，因為曲線會擬合這些少量資料點，而這些資料點往往不能代表資料的總體趨勢，導致曲線波動大以及發生嚴重偏離。

欠擬合時，模型在訓練集和測試集上都有很大誤差（高偏差）；過擬合時，模型在訓練集上可能誤差很小，但是在測試集上誤差很大（高方差）。如果模型在訓練集上誤差很大，且在測試集上的誤差要更大的多，那麼該模型同時有著高偏差和高方差。

防止欠擬合方法：不要選用過於簡單的模型

防止過擬合方法：不要選用過於複雜的模型；資料集擴增（可以是尋找更多的訓練集，也可以是對原訓練集做處理，比如對原翻轉縮放裁剪等）；正則化；early stopping(在測試集上的誤差率降到最低就停止訓練，而不是不斷降低在訓練集上的誤差)

l1正則化：在誤差函式的基礎上增加l1正則項： c=

c0+λ

n∑w|

w|l2正則化：在誤差函式的基礎上增加l2正則項： c=

c0+λ

2n∑w

w2l1正則化和l2正則化都能夠防止過擬合。簡單的來說，權值w越小，模型的複雜度越低（當w全為0時模型最簡單），對資料的擬合剛剛好（也就是奧卡姆剃刀法則）。如果從更加數學的解釋來看，我們看下圖：

可以看出，過擬合的時候，曲線要顧及每乙個點，最終形成的擬合函式波動很大。這就意味著函式在某些小區間裡的導數值（絕對值）非常大。而由於自變數值可大可小，所以只有係數足夠大，才能保證導數值很大。

l1正則化對應著lasso回歸模型，l2正則化對應著嶺回歸模型。lasso（l1正則化）得到的w往往比較稀疏，會出現很多0，因此能夠剔除無用特徵（降維）。

分類：輸入新樣本特徵，輸出類別（離散）。常見模型有：logistic回歸，softmax回歸，因子分解機，支援向量機，決策樹，隨機森林，bp神經網路，等等

回歸：輸入新樣本特徵，輸出**值（連續）。常見模型有：線性回歸，嶺回歸，lasso回歸，cart樹回歸，等等

引數學習演算法：模型有固定的引數列表θ0

,θ1.

..（比如線性回歸）

非引數學習演算法：模型中引數的數目會隨著訓練集的增加而線性增長，或者引數的值會隨著測試集的變化而變化（比如區域性加權回歸lwr就屬於非引數學習演算法）

偏差：描述的是**值（估計值）的期望與真實值之間的差距。偏差越大，越偏離真實資料。高偏差對應的是欠擬合。高偏差時，模型在訓練集和測試機上都有很大誤差。

方差：描述的是**值的變化範圍，離散程度，也就是離其期望值的距離。方差越大，資料的分布越分散。高方差對應的是過擬合。高方差時，模型在訓練集上的誤差很小，但是在測試集上的誤差很大。

如果模型在訓練集上誤差很大，且在測試集上的誤差要更大的多，那麼該模型同時有著高偏差和高方差。

監督學習：訓練集中的每個樣本既有特徵向量x，也有標籤y。根據樣本的y來對模型進行「監督」，調整模型的引數。監督學習對應的是分類和回歸演算法。

無監督學習：訓練集中的每個樣本只有特徵向量x，沒有標籤y。根據樣本之間的相似程度和聚集分布來對樣本進行聚類。無監督學習對應的是聚類演算法。

分類：事先定義好了類別，類別數不變。當訓練好分類器後，輸入乙個樣本，輸出所屬的分類。分類模型是有監督。

聚類：事先沒有定義類別標籤，需要我們根據某種規則（比如距離近的屬於一類）將資料樣本分為多個類，也就是找出所謂的隱含類別標籤。聚類模型是無監督的。

判別模型：由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型，即判別模型。

生成模型：由資料學習聯合概率密度分布p(x,y)，然後求出條件概率分布p(y|x)作為**的模型，即生成模型：p(y|x)= p(x,y)/ p(x)。

歸一化方法：

主要是為了資料處理方便提出來的，把資料對映到0～1範圍之內處理，更加便捷快速。

歸一化是一種簡化計算的方式，即將有量綱的表示式，經過變換，化為無量綱的表示式，成為純量。

標準化方法：

歸一化，一般的方法是 (x-min(x))/(max(x)-min(x)) 。標準化，一般方法是(x-mean(x))/std(x) 。其中mean(x)代表樣本均值，std(x)代表樣本標準差。這兩種方法都是屬於線性轉換，都是按比例縮放的。

歸一化和標準化的好處： c

ov(x

,y)=

e[(x

−μx)

(y−μ

y)]

當x增大y也增大時，說明兩變數是同向變化的，這時協方差就是正的；當x增大y卻減小時，說明兩個變數是反向變化的，這時x協方差就是負的。協方差越大，說明同向程度越高；協方差越小，說明反向程度越高。

相關係數：也表示兩個變數在變化過程中的變化相似程度。但是進行了歸一化，剔除了變化幅度數值大小的的影響，僅單純反映了每單位變化時的相似程度。 ρ=

cov(

x,y)

σxσy

翻譯一下：相關係數就是協方差分別除以x的標準差和y的標準差。

當相關係數為1時，兩個變數正向相似度最大，即x變大一倍，y也變大一倍；當相關係數為0時，兩個變數的變化過程完全沒有相似度；當相關係數為-1時，兩個變數的負向相似度最大，即x變大一倍，y縮小一倍。

機器學習中常見概念的區別與聯絡

機器學習常見概念

機器學習和資料探勘的聯絡與區別

機器學習中常見的損失函式

機器學習中常見概念的區別與聯絡

機器學習常見概念

機器學習和資料探勘的聯絡與區別

機器學習中常見的損失函式

相關推薦