機器為什麼可以學習 4 錯誤和雜訊

1、課程主要內容

上節課中學習了vc維的相關只是，在hypothesis set的vc維有限，且輸入資料n夠大，並可以找到乙個足夠小的ein，那麼學習就是可能的。

但是在實際的情況中，資料**不都是理想的，必然存在著錯誤和雜訊，本次課程討論在錯誤和雜訊存在的情況下，機器為什麼還可以學習？

在雜訊和錯誤存在的請款下，vc bound如何進行放縮使得學習在理論上是可行。

2、雜訊存在下的學習

在之前的學習流程圖中，在分布的部分加上了雜訊，這個時候會對之前的推導有什麼影響？

資料部分和標籤部分都有可能產生雜訊，比如標籤的誤標等，資料採集的誤差等；

之前介紹vc bound的關鍵使用了彈珠和罐子的例子，以彈珠表示每個具體的資料例項，罐子表示整個資料空間，通過在罐子中進行抽樣來**整個罐子的情況；

對應到學習上：此處彈marble彈珠前加上了確定的修飾，表示彈珠的真實顏色和取樣資料顏色相同沒有雜訊

存在雜訊時，彈珠的顏色就因為雜訊的原因可能為不確定的：

存在「變色龍」彈珠時，我們怎麼辦？還是可以採取抽樣的辦法，不過遇到特殊的彈珠時，需要記下抽樣時刻的顏色，也就是針對在某一取樣時間下，採出的樣本來反應整體；

此時，對於vc bound 來說，不光是資料x**與同乙個分布，此時y還要**乙個關於x的條件概率，整體來說就是（x,y）符合聯合概率分布f(x,y):

目標分布函式p(y|x)？？？？

在學習完成後使用測試集對訓練的模型進行效能測試；之前的推導過程中，我們使用在樣本以外的資料集上的錯誤：

更一般的來說，針對某個模型自然的就要考慮到：

抽樣樣本之外，對某個具體的點來衡量：

對於二元分類問題：

以上的錯誤衡量常被稱為0/1錯誤；

單點衡量經常使用整個資料集上出錯的點的平均：

對於樣本內可以使用：

幾種常用的錯誤衡量方式：

0/1錯誤：

平方誤差：

不同錯誤衡量下的最優的mini target 的選擇辦法：

機器為什麼可以學習

機器學習人工智慧炙手可熱，但是機器到底為什麼可以學習呢？本文將從霍夫丁不等式講到vc維，機器學習的原因所在。機器什麼時候可以學習機器怎麼學習如何讓機器學得更好總結機器學習乍聽之下很厲害，這時候人就會想，這乙個普普通通的死板的機器，怎麼會學習呢？很容易地，人們舉了個簡單的問題如下圖 x,y,...

為什麼機器學習難於應用

應用機器學習是有挑戰性的。在機器學習領域，你必須要在沒有正確答案的問題上做出很多決定！例如用什麼框架？用什麼資料作為輸入，要輸出什麼資料？用什麼演算法？用什麼演算法配置？這些問題對於初學者來說是乙個嚴峻的挑戰。如何形成乙個明確的學習問題。當給你的問題設計乙個學習系統的時候，有四個決策點需要考慮。...

exe為什麼可以在不同機器上執行

1，很多資料都說，exe檔案是二進位製碼指令是可以直接被機器執行的 2，但是，所謂的二進位製碼指令不是因機而異的嗎？不同的機器，使用的cpu是不一樣的，指令集也不一樣，那為什麼在一台機器上生成的exe可以在別的不同指令集上的cpu上執行？3，在我看來，這個所謂的指令，恐怕指的並不是對應硬體的...

機器為什麼可以學習 4 錯誤和雜訊

機器為什麼可以學習

為什麼機器學習難於應用

exe為什麼可以在不同機器上執行

相關推薦