機器學習學習筆記（一）緒論

之前寫了一篇深度學習、優化與識別的學習筆記，但是後來豆瓣書評上對這本書的評價不高，就直接放棄刪除了。

1.1引言

1.2基本術語

要進行機器學習，先要有資料，假定我們收集了一批關於西瓜的資料，例如（色澤=青綠；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=稍蜷；敲聲=沉悶），（色澤=淺白；根蒂=硬挺；敲聲=清脆），······，每對括號內是一條記錄，「=」意思是「取值為」。

這組記錄的集合稱為乙個「資料集」，其中每條記錄是關於乙個事件或物件（這裡是乙個西瓜）的描述，稱為乙個「示例」或「樣本」。反映事件或物件在某方面的表現或性質的事項，例如「色澤」「根蒂」「敲聲」，稱為「屬性」或「特徵」；屬性上的取值，；如「青綠」，「烏黑」，稱為屬性值。屬性張成的空間稱為「屬性空間」、「樣本空間」或「輸入空間」。例如我們把「色澤」「根蒂」「敲聲」作為三個座標軸，則它們張成乙個用於描述西瓜的三維空間，每個西瓜都可在這個空間中找到自己的座標位置，由於空間中的每個點對應乙個座標向量，因此我們也把乙個示例稱為乙個「特徵向量」。

一般地，令d=表示包含m個示例的資料集，每個示例由d個屬性描述（例如上面的西瓜資料使用了3個屬性）。

學的模型後，使用其進行**的過程叫做「測試」，被**的樣本稱為「測試樣本」。

我們還可以對西瓜進行進行「聚類」，即將訓練集中的西瓜分成若干組，每組稱為乙個「簇」。根據訓練資料是否擁有標記資訊，學習任務可大致劃分為兩大類：「監督學習」和「無監督學習」，分類和回歸是前者的代表，而聚類則是後者的代表。

我們希望機器學習訓練出來的模型不止適用於訓練樣本，同樣還能適用於新樣本，稱為「泛化」。

1.3假設空間

若仍然採用上面的例子，則可將好瓜和壞瓜當作我們的學習目標，我們可以把學習過程看作乙個在所有假設組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集「匹配」的假設，即能夠將訓練集中判斷正確的假設。假設的表示一旦確定，假設空間及其規模大小就確定了。這裡我們的假設空間由形如「（色澤=？）與（根蒂=？）與（敲聲=？）」的可能取值所形成的假設組成。

1.4歸納偏好

任何乙個有效的機器學習演算法必有其歸納偏好，否則它將被假設空間中看似在訓練集上「等效」的假設所迷惑，而無法產生確定的學習結果。可以想象，如果沒有偏好，我們的西瓜學習演算法產生的模型每次在進行**時隨機抽選訓練集上的等效假設，那麼對於乙個新瓜，學得模型時而告訴我們它是好的、時而告訴我們它是不好的，這樣的學習結果是沒有意義的。

1.5發展歷程

1.6應用現狀

1.7閱讀材料

機器學習學習筆記（一）緒論

《機器學習》筆記（一）緒論

周志華《機器學習》筆記（一）緒論

機器學習西瓜書學習筆記（一）緒論

機器學習學習筆記（一） 緒論

《機器學習》筆記（一） 緒論

周志華《機器學習》筆記（一）緒論

機器學習西瓜書 學習筆記（一） 緒論

相關推薦

機器學習學習筆記（一）緒論

《機器學習》筆記（一）緒論

機器學習西瓜書學習筆記（一）緒論