關於VC維的理解

###簡介

vc維，全稱為vapnik-chervonenkis dimension，它反映了模型的學習能力，vc維越大，則模型的容量越大。

###通俗定義

vc維的通俗定義是：對於乙個指示函式集，如果存在h

hh個樣本能夠被函式集中的函式按所有可能的2h2^

2h種形式分開，則稱函式集能夠將h

hh個樣本打散，函式集的vc維就是它能夠打散的最大樣本數目hma

xh_hmax

。如果對任意數目的樣本，在該函式集中都能找到函式將它們打散，則稱該函式集的vc維是無窮大。

比如說，我們以二維平面中的線性分類器為例：

在按上圖給定二維平面中的3個點的位置之後（並未給出標籤），線性函式組成的集合能夠對所有8種情形正確進行分類。值得注意的是，按照上述定義來看，只要存在3個樣本能夠被成功打散，並且不存在4個樣本能夠被打散的話，就稱這一函式集合的vc維是3。所以，我們稱二維線性函式集合所表示的分類器的vc維是3。

下面我們來看另外兩個例子：

#####例1

對於例1第二幅圖中給定的3個點而言，顯然二維線性函式集合不能對其正確分類；對於例2第二幅圖中給定的4個點而言，也不能正確分類。因此，我們說二維線性函式集合的vc維是3。

###理解

我們知道，在機器學習中，常常用到「模型」的概念，實際上，模型就是假設空間中的乙個函式。假設空間代表了一系列的函式，而我們的訓練過程就是在這個集合中找到乙個最優或近似最優的函式，來完成我們的任務。一般而言，vc維與模型容量成正相關關係。並不是與假設空間中模型個數正相關哦，比如說上面的二維線性函式集合，其中有無數個線性函式，但是其vc維仍然為3。

###參考

本文只是對vc維進行了簡要介紹，更加理論的部分大家可以參考博文《機器學習和資料探勘（7）：vc維》。這篇博文我沒仔細看，有興趣的同學可以自己琢磨琢磨。

關於VC維的理解

VC維再理解

關於VC維的自我認識

關於二維指標陣列的理解

關於VC維的理解

VC維再理解

關於VC維的自我認識

關於二維指標陣列的理解

相關推薦