台大機器學習第三講和第四講

第三講學習的方式

一 y的維度

h的輸出可能不是乙個yes和no能解決的，可能是全體實數，可能是列舉值等

二學習的方法

supervised learning 知道所有的y

unsupervised learning 不知道y

semi-supervised learning 知道一部分y

inforce learning 告訴機器那個是不對的，就像訓練狗一樣訓練機器

三學習的策略

batch，填鴨式的；sequence，漸進式的，類似於課堂上的學習，老師提出乙個問題，學生回答，然後老是告訴你答案是不對的，讓你繼續作答；active：主動提出問題來學習。

四不同的input

raw data（原始的資料），concrete data（具體的資料），abstract data（抽象的資料，沒有具體的意義，你需要自己找出這個資料的特徵，比如學生id是乙個抽象的，你要自己找出這個學生的特徵）

專注於：regression ，batch ，supervised，concrete

——————————————————————————————————————

第四講學習是可能的嗎？

通過乙個例子引出學習是否是可能的這個問題。

就是你即使得到乙個函式，這個函式的值和你手中的資料的值非常的相似，但是你依然不能**，你可以**，但是未來的值是未知的，可以有多種可能。這要怎麼辦？

想到數學中的用已知的值，來**未知的值的例子，就是抽樣

通過抽樣來得到orange球的比例。

估計罐子中的orange色的球的概率。最容易想到的就是抽樣，只要抽的足夠大，然後計算orange色球的概率，這個概率就會非常的接近真實的概率。似乎學習就是可能的了。

我們把orange 球的概率比作h在某個資料上的錯誤的概率。

h（x）就像是bin中orange的數量，雖然有的時候你可能一次全拿的是orange的，但你不可能只通過這乙個樣本來估計總的樣本的orange的比例。hx可能在某一次的data上是全部正確的，但是你不能因此就確定這個h是最好的，你要繼續取樣，只要你取足夠的樣本，你總是可以最後證明了只要資料量夠大，學習就是可能的。就像你取足夠的data就可以得到bin中orange的比例是一樣的。

可以證明

：bad data是有上線的。

是類似於你全取orange的情況的data，在這種情況下，你可以確定它是乙個bad data，因為它和你所知道的現實差太遠。

台大機器學習第三講和第四講

同濟大學C mooc 第三講第四講

機器學習第三講

機器學習十講第三講

台大機器學習第三講和第四講

同濟大學C mooc 第三講 第四講

機器學習第三講

機器學習十講第三講

相關推薦

同濟大學C mooc 第三講第四講