一批西瓜的資料:
a1(色澤=青綠;根蒂=蜷縮;敲聲=濁響)
a2(色澤=烏黑;根蒂=稍蜷;敲聲=沉悶)
a3(色澤=淺白;根蒂=硬挺;敲聲=清脆)
a1+a2+a3叫做資料集(data set)
以a1為例:
a1叫做樣本(sample)/示例(instance)
a1中的「色澤」叫做屬性(attribute)
a1中的「青綠」叫做屬性值(attribute value)
以這個資料集為例,由色澤、根蒂和敲聲這三個屬性組成,而這三個屬性張成的乙個三維空間就叫做屬性空間(attribute space)
由於空間中的每乙個點對應乙個座標向量,因此我們把乙個示例(instance)叫做乙個特徵向量(feature vector)
一般地,用(標記空間(label space)或輸出空間
分類(classification):**的是離散值,例如「好瓜」、「壞瓜」,特別地,對只涉及兩個類別的「二分類(binary classification)」,通常其中乙個稱為「正類(positive class)」,另乙個叫做「反類(negative class)」。涉及多個類時,則稱為「多分類(multi-class classification)」
回歸(regression):**的是連續值,;例如西瓜的成熟度0.95、0.36等
學習模型後,使用其進行**的過程叫做測試(testing),被測試的樣本叫做測試樣本(testing sample)
對西瓜做聚類(clustering),即將訓練集中的西瓜分成若干組,每個組稱為乙個簇(cluster);這些自動形成的簇可能對應一些潛在的概念的劃分,例如「本地瓜」、『外地瓜』等,且這樣的概念我們事先是不知道的,而且學習過程中使用的訓練樣本不能擁有標記資訊。
根據訓練資料是否擁有標記,可將學習任務分為兩大類:「監督學習(supervised learning)(eg.分類和回歸)」和「無監督學習(unsupervised learning)(eg.聚類)」
學得模型適用於新樣本的能力稱為泛化(generalization)能力
機器學習基本概念梳理(一)
1.輸入空間 輸入所有可能取值的集合 2.輸出空間 輸出所有可能的集合 3.特徵空間 所有特徵向量存在的空間 4.統計學習方法三要素 模型 策略 演算法。5.監督學習的目的在於找到乙個從輸入到輸出的對映,分為學習和 6.期望損失 又稱風險函式,r l y,f x p x y d xd yr int ...
機器學習西瓜書 基本術語
一組記錄的集合,例如 注 d dd又稱為樣本的維數 資料集中每條記錄是關於乙個事件或物件的描述,例如 反映事件或物件在某方面的表現或性質的事項,例如 屬性上的取值,例如 屬性張成的空間,例如 假設有三種屬性 色澤 根蒂 敲聲,就可以張成乙個用於描述細化的三維空間,每個西瓜都可以在這個空間中找到自己的...
機器學習西瓜書閱讀筆記 (一)基礎概念
假設空間 版本空間 nfl沒有免費午餐定理 參考文獻 假設p在用來評估電腦程式在某任務t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能的改善,則我們就說關於t和p,該程式對e進行了學習。分類和回歸是監督學習的代表聚類是無監督學習的代表如圖是西瓜書上的乙個資料集 學習目標 好瓜 好瓜的影響因...