機器學習6

機器學習第七章

vc dimension of h

指的是第乙個break point 的前面乙個點

當資料量n ≤ dvc的時候，那麼存在可能被shatter掉，當然也不是絕對。

當資料量n > dvc的時候，那麼一定不能被shatter掉

所以其實就是當資料量n足夠大，dvc足夠大的時候，就可以說明eout和ein足夠接近，而且這個和演算法以及分布沒有關係

對於1維的感測器我們可以知道dvc = 2，對於2維的感測器我們知道dvc = 3

所以我們現在猜想對於d維感測器的dvc = d + 1

那我們如何證明這個猜想呢？

利用以前的數學知識，我們可以想到如果我們可以證明dvc ≥ d+1 && dvc ≤ d+1 ，我們就可以說明dvc = d+1了

如果，我們能找到乙個d+1被shatter，那麼我們就說明dvc ≥ d+1

那麼我們取這樣乙個矩陣d+1 × d+1 大小的，第一行10000...000，第二行11000.00000，第三行10100000...00

從第二行，第二列開始是個d × 的單位矩陣，接著在第一列全部填1，第一行除了第乙個全部填0

由於可以shatter，所以輸出向量y可以是一種組合，w便是我們的感測器引數，所以sign(xw) = y，在y任意組合下都要滿足。

如果xw = y，那麼顯然上面sign(xw) = y 也成立。

因為x是可以取反矩陣的，所以，只要w = x的反矩陣乘上y就能滿足上述式子。

所以證明了這個x是可以被shatter的，所以dvc ≥ d+1

那接下來，我們需要證明dvc ≤ d+1，怎麼樣才能說明這個是正確的呢？只需要說明對於任意的d+2都不能被shatter就能夠說dvc ≤ d+1

作者是用向量的線性相關來證明的，比如我現在的資料是d+1維的，然後我們有d+2個資料，所以是d+2行，d+1列，作者沒有說明為什麼這d+2個向量是線性相關的，目前數學太渣，也沒有證明的思路，所以就直接用結論吧===真心覺得自己應該惡補一下線性代數===

那麼設xd+2 = a1xd+1 + a2xd+2 + ... + ad+1xd+1==

同時乘上w

wxd+2 = a1wxd+1 + aw2xd+2 + ... + awd+1xd+1

那麼右邊的值限制了左邊的取值，所以不能，作者說得很簡單，說如果wxn是負的，那麼an是負的，不然都是正的，所以右邊肯定大於0，所以左邊大於0，並沒有很嚴格證明===，不過不是數學課，大概明白就好，估計太向下抓數學，作者覺得沒有必要。

但是總而言之就是得到了dvc ≤ d+1

所以綜上得到了dvc = d+1.

接著作者科普了一下dvc的物理含義，其實就是乙個事物的自由度，即可以從幾個維度去調節他，比如1d -positive，dvc =1 ，想象一下，它確實只有乙個分解點可以調節，而interval顯然有兩個調節點。。。

所以可以這樣理解===感覺好吊===

下面部分數學公式有一點點多，我就截圖了

這是我們得到的公式，

那麼變形

得到這樣的部分。

再用δ把ε表示出來，帶入

然後我們比較關注的後面這個不等式。

所以繼續

隨著dvc增大，dvc越大，那說明在h的選擇也就越多，既然h選擇越多，那麼我們更容易找到ein小的h，所以ein肯定是在下降的，但是隨著dvx的增多，顯然複雜性在增大，就是後面那一堆根號。所以對於eout來說，它的error是個山谷型的曲線。

對於機器學習演算法來說，我們不僅僅要考慮到演算法的ein要小，同時還要考慮到複雜度，並不是演算法的ein越小越好。

現在有公式，我們完全可以帶人數字去計算我們的bound，在理論上我們計算出來n≈10000dvc，而實際上我們只需要10倍，效果就還不錯了。

所以說這個中間真的還是很寬鬆的

主要原因是

1.hoeffding『s inequality

2.成長函式的使用，成長函式是這個資料數量能達到的高度，

3.我們使用的是成長函式上限（邊界函式）的上限（那個多項式複雜度）

4.union bound

對於不同的模型，vc bound 的寬鬆程度差不多

機器學習6

機器學習基石（6）

機器學習 6 邏輯歸回

Coursera 機器學習 week6

機器學習6

機器學習基石（6）

機器學習 6 邏輯歸回

Coursera 機器學習 week6

相關推薦