機器學習計算學習理論

如果你不是數學系的，就不要看這個了。

由於下面內容是用來證明機器學習的方法的正確性，你能夠用機器學習來得到你想要的結果。然而對於程式設計或者使用這種方法的人來說，你僅僅要放心大膽地用即可了。就像你知道1+1=2，你並不須要知道它為什麼等於，反正你能夠用。

下面使用到的來自上海交大楊暘老師的課件。**例如以下：

寫在前邊，這課我僅僅聽懂了一部分，後來知道這個事實上並不須要了解，就沒再細細研究。可能到後邊會突然就沒有內容了。強迫症患者慎閱。

首先我們來看幾個概念：

m：訓練資料

h：如果空間。比方我們的對映函式是線性的，那麼這個空間就包含滿足如果條件的全部線性函式（可能是這種）

e(就用它取代吧)：準確率，程式設計的時候輸出的準確率就是它

第四個（這符號真...）：我們使用不同的訓練資料集產生的準確率會有不同，這個就是代表我們能夠通過所選訓練集學習到正確結果的概率

pac framework：如果全部的訓練資料都是分類準確的。沒有雜訊的。

可是這在現實中基本不可能達到的

agnostic framework：訓練資料是有雜訊的。符合實際情況

圖中的c是全然分類準確的空間，h是我們的如果空間，它們不重疊的部分就是說明我們預測的不准。

d表示理想狀態中全部的資料。上圖中，下邊那個符號就是表示分類錯誤的概率（就是c和h不相交的那部分，我以為僅僅有右邊那個月牙）

s是訓練用的資料集（也就是理想完整資料集d的一部分），那麼我們計算錯誤率的方法就是，找到全部使用訓練得到的對映函式分類錯誤的結果，用錯誤的個數除以總訓練個數就是錯誤率~

上邊求和裡邊的（一普斯龍）就是乙個脈衝函式，表示。如果c和h不相等就取1。相等就取0

這就是乙個定理，全部事件並起來的概率小於等於它們分別的概率相加

這也是乙個定理公式，記住即可了，叫做hoeffding不等式

r就是你指定的乙個常數。

zi等於1和等於0的概率已經知道了，就是（fai）和1-（fai），我們訓練好的模型預計出來的值就是（fai估），可是這個公式中的（fai估）是須要求全部預計值的平均的，然和前邊那個概率就小於等於後邊這個式子咯。

m代表樣本的個數

version space：之前說的那個非常大的如果空間裡邊，和訓練資料全然匹配的那些個對映關係

我們已經知道了這麼多的概念。然後我們究竟須要證明的是什麼呢？就是下圖中的兩個式子

僅僅要證明上邊這兩個式子成立，那麼我們就能夠說我們的學習方法是正確的可行的。

1、我們訓練得到的對映關係用在理想的完整的資料上的錯誤率約等於0（也就是我們使用部分訓練資料是ok的）

2、讓錯誤率約等於0的概率約等於1（也就是說我們不管取什麼樣的訓練資料都沒有影響）

證明了這兩個內容，那麼我們就能夠說學習的方法是正確可行的。

怎麼證明約等於0呢？事實上僅僅要證明它有上界和下界就ok

至於詳細的證明步驟，嘿嘿，沒懂。

這篇文章發表之後部落格公升為4級，而且當時剛好1000分。紀念一下，哈哈~

如果有小夥伴兒有發現錯誤或者有我理解不到位的地方，希望能夠聯絡我修正哦，你的善良讓世界都變得可愛了呢~

機器學習 計算學習理論