機器學習 1 2

什麼機器學習？第乙個機器學習的定義來自於 arthur samuel。他定義機器學習為，在進行特定程式設計的情況下，給予計算機學習能力的領域。samuel 的定義可以回溯到 50 年代，他編寫了乙個西洋棋程式。這程式神奇之處在於，程式設計者自己並不是個下棋高手。但因為他太菜了，於是就通過程式設計，讓西洋棋程式自己跟自己下了上萬盤棋。通過觀察哪種布局（棋盤位置）會贏，哪種布局會輸，久而久之，這西洋棋程式明白了什麼是好的布局，什麼樣是壞的布局。儘管編寫者自己是個菜鳥，但因為計算機有著足夠的耐心，去下上萬盤的棋，沒有人有這耐心去下這麼多盤棋。通過這些練習，計算機獲得無比豐富的經驗，於是漸漸成為了比samuel 更厲害的西洋棋手。上述是個有點不正式的定義，也比較古老。另乙個年代近一點的定義，由 tom mitchell 提出，來自卡內基梅隆大學，tom 定義的機器學習是，乙個好的學習問題定義如下，他說，乙個程式被認為能從經驗 e 中學習，解決任務 t，達到效能度量值p，當且僅當，有了經驗 e 後，經過 p 評判，程式在處理 t 時的效能有所提公升。我認為經驗e 就是程式上萬次的自我練習的經驗而任務 t 就是下棋。效能度量值 p 呢，就是它在與一些新的對手比賽時，贏得比賽的概率。

監督學習指的就是我們給學習演算法乙個資料集，這個資料集由「正確答案」組成。在房價的例子中，我們給了一系列房子的資料，我們給定資料集中每個樣本的正確**，即它們實際的售價然後運用學習演算法，算出更多的正確答案。比如你朋友那個新房子的**。用術語來講，這叫做回歸問題。我們試著推測出乙個連續值的結果，即房子的**。而在腫瘤的問題中，我們的目的是估算出腫瘤是惡性還是良心的概率，畢竟沒人會擔心良心腫瘤，這和房價問題不同因為我們將腫瘤分為了良性和惡性，所以這是個分類問題。

監督學習的基本思想是，我們資料集中的每個樣本都有相應的「正確答案」。再根據這些樣本作出**，就像房子和腫瘤的例子中做的那樣。

回歸問題，即通過回歸來推出乙個連續的輸出。

分類問題，其目標是推出一組離散的結果。

和監督學習不同，無監督學習中沒有任何的標籤或者是有相同的標籤或者就是沒標籤。我們只有乙個資料集，其他什麼也不知道，而我們要做的就是從這些資料中找到某種結構，將他們分為不同的聚集簇。無監督學習演算法可能會把這些資料分成兩個或多個不同的簇。所以叫做聚類演算法。乙個例子就是谷歌新聞，谷歌新聞每天都在收集各種新聞，它再將這些新聞分組，組成有關聯的新聞。所以谷歌新聞做的就是搜尋非常多的新聞事件，自動地把它們聚類到一起。所以，這些新聞事件全是同一主題的，所以顯示到一起。

\(m\) 代表訓練集（即監督學習中的資料集）中例項的數量

\(x\) 代表特徵/輸入變數

\(y\) 代表目標變數/輸出變數

\(\left( x,y \right)\) 代表訓練集中的例項

\((^},^})\) 代表第\(i\) 個觀察例項

\(h\) 代表學習演算法的解決方案或函式也稱為假設（hypothesis）

我們把訓練集裡房屋**餵給我們的學習演算法，學習演算法的工作了，然後輸出乙個函式，通常表示為小寫 ℎ表示。ℎ 代表 hypothesis(假設)，ℎ表示乙個函式，輸入是房屋尺寸大小，就像你朋友想**的房屋，因此 ℎ 根據輸入的

機器學習 1 2

《機器學習》入門1 2章

機器學習聚類 12

12 機器學習之大資料學習

機器學習 1 2

《機器學習》 入門1 2章

機器學習 聚類 12

12 機器學習之大資料學習

相關推薦

《機器學習》入門1 2章

機器學習聚類 12