機器學習（一）

1.1 引言

基礎概念弄得清清楚楚，演算法作業也是信手拈來，這門課成績一定查不了！

基於經驗的三個預判例子：

微濕路面、感到和風、看到晚霞，預判第二天天氣很好；

色澤青綠、根蒂捲縮、敲聲濁響，預判西瓜是好瓜；

下足功夫、弄清概念、做好作業，預判會取得好成績。

我們能做出有效的判斷，是因為我們已經積累了許多經驗，而通過對經驗的利用，就能對新情況做出有效的決策。

機器學習（machine learning）致力於研究如何通過計算的手段，利用經驗來改善系統自身的效能。在計算機系統中，「經驗」通常以「資料」的形式存在。因此，機器學習所研究的主要內容，是關於計算機上從資料中產生「模型」（model）的演算法，即「學習演算法」（learning algorithm）。

經驗資料------>學習演算法------>模型------>接收新情況------>做出新判斷；機器學習是研究關於「學習演算法」的學問。

本書中，用「模型」泛指從資料中學得的結果。有文獻用「模型「指全域性性結果（例如一棵決策樹），而用」模式「指全域性性結果（例如一條規則）。

1.2 基本術語

資料集（data set）：是一組資料的集合。

示例（instance）或樣本（sample）：是資料集中每條記錄，關於乙個事件或物件的描述。

屬性（attribute）或特徵（feature）：反映事件或物件在某方面的表現或性質的事項。

屬性值（attribute value）：屬性上的取值。

屬性空間（attribute space）、樣本空間（sample space）或輸入空間：是屬性張成的空間。

特徵向量（feature vector）：我們把「色澤」、「根蒂」、「敲聲」作為三個座標軸，則它們張成乙個用於描述西瓜的三維空間，每個習慣都可以在這個空間中找到自己的座標位置，由於空間中的每個點對應乙個座標向量，因此我們也把乙個示例稱為乙個」特徵向量「。

一般的，令d = 表示包含m個示例的資料集，每個示例由d個屬性描述，則每個示例xi = 是d維樣本空間x中的乙個向量，xi 屬於 x，其中xij是xi在第j個屬性上的取值，d稱為樣本xi的「維數」（dimensionality）。

「學習（learning）」或「訓練（training）」是指：從資料中學得模型的過程，這個過程通過執行某個學習演算法來完成。

訓練資料（training data）是指：訓練過程中使用的資料。

訓練樣本（training sample）是指：訓練資料中的每個樣本。

訓練集（training set）是指：訓練樣本組成的集合。

假設（hypothesis）：學得模型對應了關於資料的某種潛在的規律。

「真相」或「真實」（groud-truth）：這種潛在規律自身。

學習過程就是為了找出或逼近真相。

學習器（learner）：本書有時將模型稱為learner，可看作學習演算法在給定資料和引數空間上的例項化。

機器學習（一）

機器學習一機器學習概要

機器學習一

機器學習（一）

機器學習（一）

機器學習一 機器學習概要

機器學習一

機器學習（一）

相關推薦

機器學習一機器學習概要