機器學習課堂筆記4

2021-08-07 17:15:34 字數 1037 閱讀 7580

1,機器什麼時候可以學習

2,為什麼機器可以學習

3,機器怎麼學習

4,機器怎麼樣才能學得更好

vc維:

課堂筆記3中提到「break point」的概念:在資料量達到一定數量k的時候,假設集合h無法再shatter這k個資料,則成長函式mh的break point就是k。vc dimision=k-1,即假設集合h可以shatter的最大的資料量,記為dvc

不同的假設集合h的vc維是不一樣的,對於課堂筆記1中提到的感知器演算法(pla),其vc維=d+1,其中d是輸入變數x的維度。對於有些h,vc維是無限大(比如機器學習筆記3中提到的convex set,對任意數量的資料都可以shatter)

有了vc維的概念,當dvchi有限的時候,就可以用其保證ein和eout是接近的。這種接近是一般意義上的,即對任何機器學習演算法,任何產生x的分布,任何可能的目標函式f,都能保證樣本內的錯誤ein和樣本外錯誤eout是pac的,所以我們可以有以下的機器學習的框架:

一般來說,我們可以根據假設集合h的假設自由度(即假設中待確定的引數的數量)來近似估計vc維。例如有w=(w0,w1,...,wd),dvc(h)近似等於d.可以把vc維看成對假設h有多強的度量,dvc越小,假設h越簡單,我們越可以保證ein和eout是很接近的,但是也越難以找到好的假設h讓ein足夠小。反之,ein可以很小,但是eout可能和ein相差很遠(也就是過擬合問題)。

可以用dvc表示模型複雜度。模型複雜度影響著ein和eout的差別。根據學習筆記3中的公式:

模型複雜度和eout,ein的關係圖如下:

可以看到eout是隨著dvc先減少後增加的。

dvc還可以指導我們需要多少資料量才能達到某種精度要求:

假設需要ein和eout相差超過0.1的概率不超過0.1,則我們學習需要的資料量是:

理論上來說,需要的資料量是dvc的一萬倍。但是dvc是非常寬鬆的上界,所以實際上:

機器學習課堂筆記(一)

無監督學習和聚類演算法的應用 機器自己去找出資料集內在的關係,機器學習例子 舉個跳棋的例子,乙個電腦程式從許多局跳棋遊戲關於跳棋本身和贏得下局的概率中學習,從而對另外一局跳棋,程式贏得比賽的概率。監督學習的例子 如果 根據戶型 房價,這是回歸問題,而通過戶型來 實際 會比定價高還是低,則是分類問題。...

機器學習課堂筆記1

在學習了台灣大學husan tian lin老師的課程後,將一些知識和自己的一些體會整理成筆記。機器學習基礎課程中主要講了四個部分 1,機器什麼時候可以學習 2,為什麼機器可以學習 3,機器怎麼學習 4,機器怎麼樣才能學得更好 本筆記從機器什麼時候可以學習說起 現在機器學習的概念被炒的很火,但並不是...

課堂筆記4

一 指標 在32位系統中,不管什麼型別的指標都佔4個位元組,例如int char double long 在定義時表示是指標變數,在使用時表示取值 int p,a p a p 3 或者int a 1 int p a p 3 以上兩種寫法都對,這樣a和 p的值都為3了 段錯誤 segmentation...