ML 什麼是引數模型和非引數模型

第一次接觸這個概念是在總結lr和svm之間的區別的時候，lr是引數模型，svm是非引數模型。

今天來總結一下引數模型和非引數模型。

一、前言

引數模型(parametric model)和非引數模型(non-parametric model)作為數理統計學中的概念，現在也常用於機器學習領域。

在統計學中，引數模型通常假設總體(樣本、資料、隨機變數)服從某個分布，這個分布可以由一些引數確定，如正態分佈由均值(0)和方差(1)[此時，標準差也為1]確定，在此基礎上構建的模型稱為引數模型；

非引數模型對於總體的資料分布不做任何假設，或者說資料分布假設自由，只知道其資料分布式存在的，但是不知道資料的分布形式，更不知道分布的相關引數，只有在給定一些樣本的條件下，能夠依據非引數統計的方法進行推斷。

所以說，引數模型和非引數模型中的「引數」並不是模型中的引數，而是資料分布的引數。

從上述的區別中可以看出，問題中有沒有引數，並不是引數模型和非引數模型的區別。其區別主要在於總體的分布形式是否已知。而為何強調「引數」與「非引數」，主要原因在於引數模型的分布可以有引數直接確定。

需要注意的是，引數模型它的引數是有限的，可以指定出w

ww1，w

ww2,…,w

wwn;非引數模型也並不是沒有引數，而是引數的數目很多或者數目不確定。（注意：所謂「多」的標準，就是引數數目大體和樣本規模差不多）

機器學習實際上可以總結為學習乙個函式，通過輸入變數對映為輸出變數，由於這個函式的形式未知，所以需要選擇合適的方法來擬合這個函式。

二、引數模型

引數機器學習模型由於指定了目標函式的形式，所以可以極大地簡化這個學習的過程，但是同樣會限制學習的過程。所以引數機器學習模型包括兩個部分：

舉個線性回歸的例子，線性回歸作為常見的引數模型，它通過假設輸入變數與輸出變數之間具有線性關係，然後就可以設定目標函式為 y = a x + b ，需要做的就是通過合適的方法如最小二乘法來擬合目標函式的引數。

常見的引數機器學習模型有：

引數機器學習演算法的優點:

引數機器學習演算法的(缺點)侷限性：

三、非引數模型

非引數機器學習演算法對目標函式形式不做過多的假設，因此演算法可以通過對訓練資料進行擬合而學習出某種形式的函式。

常見的非引數機器學習模型有：

非引數機器學習演算法的優點有：

非引數機器學習演算法的(缺點)侷限性：

速度慢：因為需要訓練跟多的引數，所以訓練過程通常比較慢

過擬合：有較高的風險發生過擬合，對於**的效果解釋性不高

四、總結

通過對比引數模型和非引數模型的特點，可以得知引數模型對訓練資料的大小要求不如非引數模型高，因為引數模型通過對擬合函式(目標函式)進行假設，所以只需要對引數進行擬合即可；而非引數模型由於需要從資料中發掘資料之間關係，所以對資料量要求較高。

通常說到的機器學習的黑盒特性，一般指的就是非引數機器學習模型。因為它不需要做出假設，並且需要擬合很多引數，所以它的解釋性就降低了。所以相比而言，引數機器學習模型由於對資料做出了理想的假設，所以得到的模型更加魯棒，所以解釋性也就更高。

參考