機器學習西瓜書筆記

概念：致力於通過計算的手段，利用經驗來改善系統自身的效能。其中，經驗以資料的形式存在。

基本術語：

資料集：記錄的集合。

示例/樣本：每條記錄，關於乙個事件或物件的描述，反應事件或物件在某方面的表現或性質的事項。

屬性/特徵：一條記錄/乙個樣本由多個屬性/特徵組成。

屬性值：屬性或特徵的值。

示例對應於乙個座標向量，所以又稱特徵向量。

輸入空間/樣本空間：屬性張成的空間。

輸出空間/標記空間：所有標記的集合。

訓練樣本：訓練集中用於訓練的樣本。

測試樣本：訓練集中用於測試的樣本。

機器學習分類

監督學習：分類（**的為離散值）+回歸（**的為連續值）。

無監督學習：聚類（資料集沒有標記）。

假設空間

歸納：從特殊到一般。

演繹：從一般到特殊。

機器學習，從樣例中學習，顯然是乙個歸納的過程，故也稱為歸納學習。

假設空間：學習到的所有假設（模型）。從假設空間，進行搜尋，搜尋過程中不斷刪除與正例不一致的假設和與反例一致的假設，最終獲得與訓練集一一致的假設。

版本空間：但是在學習到的假設中，因為訓練集樣本的有限，會存在多個假設和訓練集一致的現象。從而引發模型（假設）的選擇。

假設（模型）選擇—歸納偏好

歸納偏好：機器學習演算法在學習過程中，對某種型別假設的偏好。

奧卡姆剃刀：若有多個假設與觀察一致，則選擇最簡單的那個。但並不是唯一的選擇原則。

模型評價

泛化能力：指訓練的模型的對新樣本的適應能力。

總結

對於乙個學習演算法a,若它在某問題上比學習演算法b好,則必然存在另一些問題,在那裡b比a好.無論學習演算法a多聰明，學習演算法b多笨拙，他們的期望效能竟然一樣；即"沒有免費的午餐"定理(no free lunch theorem,nfl).因此要談論演算法的相對優劣,必須要針對具體的學習問題。脫離具體問題，空泛的談論則毫無意義。

機器學習（西瓜書）緒論筆記

正如我們根據過去的經驗來判斷明天的天氣，吃貨們希望從購買經驗中挑選乙個好瓜，那能不能讓計算機幫助人類來實現這個呢？機器學習正是這樣的一門學科，人的經驗對應計算機中的資料讓計算機來學習這些經驗資料，生成乙個演算法模型，在面對新的情況中，計算機便能作出有效的判斷，這便是機器學習。另一本經典教材的...

《機器學習實戰》《西瓜書》筆記（一）

我們要做的其實是讓機器他有自己學習的能力，也就我們要做的應該machine learning的方向。講的比較擬人化一點，所謂machine learning的方向，就是你就寫段程式，然後讓機械人變得了很聰明，他就能夠有學習的能力。接下來，你就像教乙個嬰兒教乙個小孩一樣的教他，你並不是寫程式讓他做到...

機器學習西瓜書（筆記一）緒論

在機器學習中常見的基本術語包含資料集屬性值屬性空間特徵向量訓練集測試集等等，各自的英文表示在思維導圖中有提及。假設空間主要提及了兩種方法歸納法和演繹法。歸納法是從特殊到一般的泛化演繹法是從一般到特殊的特化歸納偏好指的是總誤差是與學習演算法無關的，任意兩種演算法的誤差都相等。說到...

機器學習西瓜書筆記

機器學習（西瓜書） 緒論筆記

《機器學習實戰》《西瓜書》筆記（一）

機器學習 西瓜書（筆記一） 緒論

相關推薦

機器學習（西瓜書）緒論筆記

機器學習西瓜書（筆記一）緒論