機器學習6

2021-07-06 04:14:18 字數 2028 閱讀 8384

機器學習第七章

vc dimension of h

指的是第乙個break point 的前面乙個點

當資料量n ≤ dvc的時候,那麼存在可能被shatter掉,當然也不是絕對。

當資料量n > dvc的時候,那麼一定不能被shatter掉

所以其實就是當資料量n足夠大,dvc足夠大的時候,就可以說明eout和ein足夠接近,而且這個和演算法以及分布沒有關係

對於1維的感測器我們可以知道dvc = 2,對於2維的感測器我們知道dvc = 3

所以我們現在猜想對於d維感測器的dvc = d + 1

那我們如何證明這個猜想呢?

利用以前的數學知識,我們可以想到如果我們可以證明dvc ≥ d+1 && dvc ≤ d+1 ,我們就可以說明dvc = d+1了

如果,我們能找到乙個d+1被shatter,那麼我們就說明dvc  ≥ d+1

那麼我們取這樣乙個矩陣d+1 × d+1 大小的,第一行10000...000,第二行11000.00000,第三行10100000...00

從第二行,第二列開始是個d × 的單位矩陣,接著在第一列全部填1,第一行除了第乙個全部填0 

由於可以shatter,所以輸出向量y可以是一種組合,w便是我們的感測器引數,所以sign(xw) = y,在y任意組合下都要滿足。

如果xw = y,那麼顯然上面sign(xw) = y 也成立。

因為x是可以取反矩陣的,所以,只要w = x的反矩陣乘上y就能滿足上述式子。

所以證明了這個x是可以被shatter的,所以dvc  ≥ d+1

那接下來,我們需要證明dvc ≤ d+1,怎麼樣才能說明這個是正確的呢?只需要說明對於任意的d+2都不能被shatter就能夠說dvc ≤ d+1

作者是用向量的線性相關來證明的,比如我現在的資料是d+1維的,然後我們有d+2個資料,所以是d+2行,d+1列,作者沒有說明為什麼這d+2個向量是線性相關的,目前數學太渣,也沒有證明的思路,所以就直接用結論吧===真心覺得自己應該惡補一下線性代數===

那麼設xd+2 = a1xd+1 + a2xd+2 + ... + ad+1xd+1==

同時乘上w

wxd+2 = a1wxd+1 + aw2xd+2 + ... + awd+1xd+1

那麼右邊的值限制了左邊的取值,所以不能,作者說得很簡單,說如果wxn是負的,那麼an是負的,不然都是正的,所以右邊肯定大於0,所以左邊大於0,並沒有很嚴格證明===,不過不是數學課,大概明白就好,估計太向下抓數學,作者覺得沒有必要。

但是總而言之就是得到了dvc ≤ d+1

所以綜上得到了dvc = d+1.

接著作者科普了一下dvc的物理含義,其實就是乙個事物的自由度,即可以從幾個維度去調節他,比如1d -positive,dvc =1 ,想象一下,它確實只有乙個分解點可以調節,而interval顯然有兩個調節點。。。

所以可以這樣理解===感覺好吊===

下面部分數學公式有一點點多,我就截圖了

這是我們得到的公式,

那麼變形

得到這樣的部分。

再用δ把ε表示出來,帶入

然後我們比較關注的後面這個不等式。

所以繼續

隨著dvc增大,dvc越大,那說明在h的選擇也就越多,既然h選擇越多,那麼我們更容易找到ein小的h,所以ein肯定是在下降的,但是隨著dvx的增多,顯然複雜性在增大,就是後面那一堆根號。所以對於eout來說,它的error是個山谷型的曲線。

對於機器學習演算法來說,我們不僅僅要考慮到演算法的ein要小,同時還要考慮到複雜度,並不是演算法的ein越小越好。

現在有公式,我們完全可以帶人數字去計算我們的bound,在理論上我們計算出來n≈10000dvc,而實際上我們只需要10倍,效果就還不錯了。

所以說這個中間真的還是很寬鬆的

主要原因是

1.hoeffding『s inequality

2.成長函式的使用,成長函式是這個資料數量能達到的高度,

3.我們使用的是成長函式上限(邊界函式)的上限(那個多項式複雜度)

4.union bound

對於不同的模型,vc bound 的寬鬆程度差不多

機器學習基石(6)

希望m最終能取代m 假設集大小 到底m會不會漲的很慢?假設的數量不會太多?如果長得很慢,能不能取代掉原來的m?mh成長函式 到底這個假設集,在n個點上,到底能產生多少種dichotomies?如果是positive rays,在n 2時候就露出破綻,不能產生那種情形 如果是positive inte...

機器學習 6 邏輯歸回

1.用自己的話描述一下,什麼是邏輯回歸,與線性回歸對比,有什麼不同?邏輯回歸x 軸的變數,y軸作為乙個概率,值對應的 y值越接近於 1說明完全符合 結果。但是擬合的越好,不代表效果就越好,有可能擬合過度。區別 首先邏輯回歸處理的是分類問題,線性回歸處理的是回歸問題,這是兩者最本質的區別。2.自述一下...

Coursera 機器學習 week6

52nlp的筆記 如何調演算法,可能的措施包括 其中d為迭代次數 1 欠擬合underfitting 高偏差 high bias jt rain 和jcv 都比較大 這時候可以 減小 增加特徵數,引入多項式特徵,但是擴充資料集不管用 2 過擬合 overfitting 高方差 high varian...