機器為什麼可以學習 4 錯誤和雜訊

2022-08-23 08:30:17 字數 1722 閱讀 7675

1、課程主要內容

上節課中學習了vc維的相關只是,在hypothesis set的vc維有限,且輸入資料n夠大,並可以找到乙個足夠小的ein,那麼學習就是可能的。

但是在實際的情況中,資料**不都是理想的,必然存在著錯誤和雜訊,本次課程討論在錯誤和雜訊存在的情況下,機器為什麼還可以學習?

在雜訊和錯誤存在的請款下,vc bound如何進行放縮使得學習在理論上是可行。

2、雜訊存在下的學習

在之前的學習流程圖中,在分布的部分加上了雜訊,這個時候會對之前的推導有什麼影響?

資料部分和標籤部分都有可能產生雜訊,比如標籤的誤標等,資料採集的誤差等;

之前介紹vc bound的關鍵使用了彈珠和罐子的例子,以彈珠表示每個具體的資料例項,罐子表示整個資料空間,通過在罐子中進行抽樣來**整個罐子的情況;

對應到學習上:此處彈marble彈珠前加上了確定的修飾,表示彈珠的真實顏色和取樣資料顏色相同沒有雜訊

存在雜訊時,彈珠的顏色就因為雜訊的原因可能為不確定的:

存在「變色龍」彈珠時,我們怎麼辦?還是可以採取抽樣的辦法,不過遇到特殊的彈珠時,需要記下抽樣時刻的顏色,也就是針對在某一取樣時間下,採出的樣本來反應整體;

此時,對於vc bound 來說,不光是資料x**與同乙個分布,此時y還要**乙個關於x的條件概率,整體來說就是(x,y)符合聯合概率分布f(x,y):

目標分布函式p(y|x)????

在學習完成後使用測試集對訓練的模型進行效能測試;之前的推導過程中,我們使用在樣本以外的資料集上的錯誤:

更一般的來說,針對某個模型自然的就要考慮到:

抽樣樣本之外,對某個具體的點來衡量:

對於二元分類問題:

以上的錯誤衡量常被稱為0/1錯誤;

單點衡量經常使用整個資料集上出錯的點的平均:

對於樣本內可以使用:

幾種常用的錯誤衡量方式:

0/1錯誤:

平方誤差:

不同錯誤衡量下的最優的mini target 的選擇辦法:

機器為什麼可以學習

機器學習 人工智慧炙手可熱,但是機器到底為什麼可以學習呢?本文將從霍夫丁不等式講到vc維,機器學習的原因所在。機器什麼時候可以學習 機器怎麼學習 如何讓機器學得更好總結 機器學習乍聽之下很厲害,這時候人就會想,這乙個普普通通的死板的機器,怎麼會學習呢?很容易地,人們舉了個簡單的問題 如下圖 x,y,...

為什麼機器學習難於應用

應用機器學習是有挑戰性的。在機器學習領域,你必須要在沒有正確答案的問題上做出很多決定!例如 用什麼框架?用什麼資料 作為輸入,要輸出什麼資料?用什麼演算法?用什麼演算法配置?這些問題對於初學者來說是乙個嚴峻的挑戰。如何形成乙個明確的學習問題。當給你的問題設計乙個學習系統的時候,有四個決策點需要考慮。...

exe為什麼可以在不同機器上執行

1,很多資料都說,exe檔案是二進位製碼 指令 是可以直接被機器執行的 2,但是,所謂的二進位製碼 指令 不是因機而異的嗎?不同的機器,使用的cpu是不一樣的,指令集也不一樣,那為什麼在一台機器上生成的exe可以在別的不同指令集上的cpu上執行?3,在我看來,這個所謂的指令,恐怕指的並不是對應硬體的...