機器學習課堂筆記4

1，機器什麼時候可以學習

2，為什麼機器可以學習

3，機器怎麼學習

4，機器怎麼樣才能學得更好

vc維：

課堂筆記3中提到「break point」的概念：在資料量達到一定數量k的時候，假設集合h無法再shatter這k個資料，則成長函式mh的break point就是k。vc dimision=k-1，即假設集合h可以shatter的最大的資料量，記為dvc

不同的假設集合h的vc維是不一樣的，對於課堂筆記1中提到的感知器演算法（pla），其vc維=d+1,其中d是輸入變數x的維度。對於有些h，vc維是無限大（比如機器學習筆記3中提到的convex set，對任意數量的資料都可以shatter）

有了vc維的概念，當dvchi有限的時候，就可以用其保證ein和eout是接近的。這種接近是一般意義上的，即對任何機器學習演算法，任何產生x的分布，任何可能的目標函式f，都能保證樣本內的錯誤ein和樣本外錯誤eout是pac的，所以我們可以有以下的機器學習的框架：

一般來說，我們可以根據假設集合h的假設自由度（即假設中待確定的引數的數量）來近似估計vc維。例如有w=(w0,w1,...,wd)，dvc(h)近似等於d.可以把vc維看成對假設h有多強的度量，dvc越小，假設h越簡單，我們越可以保證ein和eout是很接近的，但是也越難以找到好的假設h讓ein足夠小。反之，ein可以很小，但是eout可能和ein相差很遠（也就是過擬合問題）。

可以用dvc表示模型複雜度。模型複雜度影響著ein和eout的差別。根據學習筆記3中的公式：

模型複雜度和eout，ein的關係圖如下：

可以看到eout是隨著dvc先減少後增加的。

dvc還可以指導我們需要多少資料量才能達到某種精度要求：

假設需要ein和eout相差超過0.1的概率不超過0.1，則我們學習需要的資料量是：

理論上來說，需要的資料量是dvc的一萬倍。但是dvc是非常寬鬆的上界，所以實際上：

機器學習課堂筆記4

機器學習課堂筆記（一）

機器學習課堂筆記1

課堂筆記4

機器學習課堂筆記4

機器學習課堂筆記（一）

機器學習課堂筆記1

課堂筆記4

相關推薦