機器學習初識概念

機器學習是關於在計算機上從資料中產生模型(mode)的演算法，即學習演算法（learning algorithm）

學得模型對應了關於資料的某種潛在的規律，因此亦稱為假設(hypothesis)；這種潛在規律自身，則成為真相或真實(ground-truth)；模型也可稱為學習器(learner)

標記(label)是輸出結果資訊，所有標記的集合為標記空間或輸出空間(label space);若我們**值是離散的，稱為分類(classification)；若**值是連續值，則稱此類學習任務為回歸(regression).

根據訓練資料是否擁有標記資訊，可大致分為兩大類：監督學習(supervised learning)和無監督學習(unsupervised learning).分類和回歸是前者代表。聚類(clustering)為後者代表,聚類指的的是將訓練集中的西瓜分成若干組，每組稱為乙個簇(cluster),在學習過程中使用的訓練樣本通常不擁有標記資訊。

學得模型適應新樣本的能力，稱為泛化能力。通常假設樣本空間中全體樣本服從乙個未知分布(distribution)d,我們獲得的每個樣本都是獨立地從這個分布上取樣獲得地，即獨立同分布(independent and identically distributed,簡稱i.i.d).訓練樣本越多，得到地關於d資訊越多，越有可能獲得地具有強泛化能力地模型。

我們可以把學習過程看作乙個在所有假設（hypothesis）組成地空間中進行搜尋地過程，搜尋目標是找到與訓練集匹配(fit)的假設，即能將訓練集中判斷正確的假設。可能有多個假設與訓練集一致，即存在著乙個與訓練集一致的假設集合，我們稱之為版本空間(version space).

版本空間中選出合適的假設，便引入了歸納偏好，即機器學習在學習過程中對某種型別假設的偏好，稱為歸納偏好（inductive bias）.奧卡姆剃刀（occam』s razor）是一種常見的、自然科學研究中最基本的原則，即若有多個假設與觀察一致，則選擇最簡單的那個。事實上，歸納偏好對應了學習演算法本身多做出的關於"什麼樣的模型更好"的假設。在具體的現實的問題中，這個假設是否成立，即演算法的歸納偏好是否與問題本身匹配，大多時候直接決定了演算法能否取得好的效能。

機器學習初識概念

機器學習初識機器學習

初識機器學習

初識機器學習

機器學習初識概念

機器學習 初識機器學習

初識機器學習

初識機器學習

相關推薦

機器學習初識機器學習