筆記 加州理工學院公開課 機器學習與資料探勘 一

2021-07-09 22:53:25 字數 1138 閱讀 6916

對目前在看的乙個公開課做一下筆記 第一課的連線在這裡:

這門課是caltech的機器學習的入門課程 就相當於科普性質的 主要想鞏固一下以前學的知識 盡量解釋概念 少貼公式

本門課的講師是yaser abu-mostafa教授 caltech的大牛 能可貴的是他跟產業界有很多聯絡 所以這門課講到很多實踐的東西

第一課是 學習問題

這一課的主要內容是介紹什麼是學習 首先是三個前提:1 資料中有固定的模式存在 即有一定規律的 2 這個模式不能用數學公式精確的描述 要是能描述就不用學習了 3 有資料 其實這裡的學習概念跟我們生活中的學習是不一樣的 這裡的學習並不具有智慧型的含義 只是說從資料中尋找不能用數學公式精確描述的規律 它有很多限制 而我們生活中的學習則高階得多的多

還有就是學習的分類 按照他的說法 分為1 監督學習 2 無監督學習 3 強化學習 前兩者自不用說 其中乙個例子比較好 就是把無監督學習模擬於人類在沒有資料的情況下學習一種語言 而強化學習跟前兩者的不同就是它的反饋不是絕對的 而是乙個評分 比如看電影的評分 

另外 最後的q&a環節 乙個亞裔口音的男生轉述了很多問題 雖然很多問題看似比較簡單 比如資料怎麼來的 但是教授仍然很耐心的回答 據我猜測這可能是乙個本科生的課程 所以caltech的氛圍真的是很不一樣

第二課是 學習的可行性

這節課討論的是能否學習 也就是所謂學習概念的理論基礎 我一開始還以為是拿著資料討論是不是可以學習 線性還是非線性之類的 但是教授確實從純數學的角度討論了一般意義上為什麼可以從資料中學習到乙個合理的hypothesis 簡單講就是為什麼頻率可以等於概率 學過統計課程的知道當樣本數量足夠大的時候頻率就可以等於概率 這個理論的核心便是hoeffding不等式:

而hoeffding不等式是如何跟學習問題聯絡在一起的呢 首先把頻率和概率換一種說法 因為頻率是樣本之中的 因此設為ein 即in sample 而概率是樣本之外的 設為eout 即out of sample 而我們需要驗證的是不同hypothesis的效果 因為就有ein(h) 和 eout(h) 那hoeffding不等式就變成了

最後q&a裡有人問hoeffding是怎麼證明學習可行的 看來還是有人聽了一節課不知道跟題目啥關係 那麼回答就是原始的hoeffding不等式只是證明了頻率等於概率這個事 而談到學習 則需要考慮多種情況同時發生 因此需要加上乙個m 好吧 好像沒啥實踐意義 就當了解一下吧

麻省理工學院 人工智慧公開課總結02

這節課一開始給出了乙個積分式子 5 4 1 x 2 2.5 dx 然後告訴我們機器是如何像人一樣一步步求解這個積分的 首先,將變化公式分為安全變化公式和啟發式公式,安全變化公式包括以下基本的四種 提出負號。提出常數。和之積分等於積分之和。分數積分等於其商之積分。這個時候模型就有基本思路了 應用所有公...

麻省理工學院 人工智慧公開課總結03

這一講首先介紹了乙個移動方塊的人工智慧程式,並以此詳細講解了目標樹的概念,這一程式不僅能夠能夠實現目標,還能解釋自己在過程中的一些行為。目標樹 又叫與或樹 的具體概念是怎樣的呢?目標樹是按照樹形結構對目標或者設計標準進行組織的方法,它把不同的目標均歸類到更高階的目標之下。通過視覺化的方式和分支層次來...

麻省理工學院公開課 電腦科學及程式設計導論習題1

習題1 編輯乙個程式,顯示出第1000個質數。質數的特性是只能被1和自己整除,所以所有演算法都由此引開。因為一開始漏看了 th 所以以為是1 1000裡面的質數.這是一種演算法,這兩種的效率差不多 print 2 for x in range 3,1001 y 2 while x y 0 and x...