第一章緒論

在計算機系統中，「經驗」通常以「資料」形式存在，因此，機器學習所研究的主要內容，是關於在計算機上從資料中產生「模型」的演算法，即「學習演算法」。有了學習演算法，我們把經驗資料提供給它，它就能基於這些資料產生模型；在面對新的情況時，模型會給我們提供相應的判斷。（周志華）

假設用p來評估電腦程式在某任務類t上的效能，若乙個程式通過利用經驗e在t中任務上獲得了效能改善，則我們就說關於t和p，該程式對e進行了學習。（mitchell）

樣本：屬性、屬性值、樣本空間、特徵向量、維數

訓練、測試、分類、回歸、有監督學習、無監督學習。

評價指標：泛化能力。

歸納：從特殊到一般的泛化過程。即從具體的事實歸結出一般性規律。

演繹：從一般到特殊的特化過程。即從基礎原理推演出具體情況。

概念學習：通過描述概念的若干正例和反例訓練樣本，歸納出該概念的通用定義。其學習過程就是在假設空間中的搜尋過程。搜尋過程中可以不斷刪除與正例不一致的假設、或與反例一致的假設。最終將會獲得與訓練集一致的假設。

搜尋策略：自頂向下，自底向上，從一般都特殊，從特殊到一般。

note：歸納學習的前提假設，對於任意假設，如果在足夠大的訓練集合中，能夠很好地擬合目標函式，則在例項空間中也能夠很好地擬合目標函式。

機器學習演算法在學習過程中隊某種型別假設的偏好，稱為歸納偏好。任何乙個有效的機器學習演算法必有其歸納偏好，否則它將被假設空間中看似在訓練集熵等效的假設所迷惑，而無法產生確定的學習結果。

奧卡姆剃刀：若有多個假設與觀察一致，則選最簡單的那個。

nfl定理：無論學習演算法的聰明與笨拙，它們的期望效能是相同的。但是。nfl定理的乙個重要前提是，所有問題出現的機會相同。這也就說明了歸納偏好的重要性。學習演算法自身的歸納偏好與問題是否匹配，往往會起到決定性作用。

推理期：賦予機器邏輯推理能力。（五十年代到七十年代初）

知識期：機器必須擁有知識才能擁有智慧型。（七十年代中期）

學習期：讓機器去學習。從樣例中學習、符號主義學習、基於神經網路的連線主義學習。（八十年代）

統計學習：支援向量機、核方法。（九十年代中期）

深度學習：很多層的神經網路。（二十一世紀初）

1.1 答：如圖1.1。

1.2 答：

表1.1中，色澤屬性有2個屬性值，根蒂和敲聲屬性分別有3個屬性值，所以假設空間中一共有3*4*4+1=49種假設。在不考慮冗餘的情況下，最多包含k個合取式來表達假設空間，則一共有

如果考慮冗餘情況，這48中假設中（暫時不考慮空集），具體假設有2*3*3=18種，乙個泛化屬性假設有2*3+2*3+3*3=21種，兩個泛化屬性有2+3+3=8種，三個泛化屬性只有1種。

？？？1.3 答：如果雜訊資料裡包含相同屬性出現兩種不同情況的分類，第一種解決方案是它分為和相近屬性的在同一類。如果無法判斷相近屬性的分類，則可以同時刪除相同屬性不同分類的資料。

1.4 答：

已知，

則對所有可能的f按均勻分布對誤差求和，得到

要想證明nfl定理，只需要證明

第一章 緒論