機器學習(一)

2021-09-05 13:05:56 字數 1410 閱讀 2218

1.1 引言

基礎概念弄得清清楚楚,演算法作業也是信手拈來,這門課成績一定查不了!

基於經驗的三個預判例子:

微濕路面、感到和風、看到晚霞,預判第二天天氣很好;

色澤青綠、根蒂捲縮、敲聲濁響,預判西瓜是好瓜;

下足功夫、弄清概念、做好作業,預判會取得好成績。

我們能做出有效的判斷,是因為我們已經積累了許多經驗,而通過對經驗的利用,就能對新情況做出有效的決策。

機器學習(machine learning)致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能。在計算機系統中,「經驗」通常以「資料」的形式存在。因此,機器學習所研究的主要內容,是關於計算機上從資料中產生「模型」(model)的演算法,即「學習演算法」(learning algorithm)。

經驗資料------>學習演算法------>模型------>接收新情況------>做出新判斷;機器學習是研究關於「學習演算法」的學問。

本書中,用「模型」泛指從資料中學得的結果。有文獻用「模型「指全域性性結果(例如一棵決策樹),而用」模式「指全域性性結果(例如一條規則)。

1.2 基本術語

資料集(data set):是一組資料的集合。

示例(instance)或樣本(sample):是資料集中每條記錄,關於乙個事件或物件的描述。

屬性(attribute)或特徵(feature):反映事件或物件在某方面的表現或性質的事項。

屬性值(attribute value):屬性上的取值。

屬性空間(attribute space)、樣本空間(sample space)或輸入空間:是屬性張成的空間。

特徵向量(feature vector):我們把「色澤」、「根蒂」、「敲聲」作為三個座標軸,則它們張成乙個用於描述西瓜的三維空間,每個習慣都可以在這個空間中找到自己的座標位置,由於空間中的每個點對應乙個座標向量,因此我們也把乙個示例稱為乙個」特徵向量「。

一般的,令d =  表示包含m個示例的資料集,每個示例由d個屬性描述,則每個示例xi = 是d維樣本空間x中的乙個向量,xi 屬於 x,其中xij是xi在第j個屬性上的取值,d稱為樣本xi的「維數」(dimensionality)。

「學習(learning)」或「訓練(training)」是指:從資料中學得模型的過程,這個過程通過執行某個學習演算法來完成。

訓練資料(training data)是指:訓練過程中使用的資料。

訓練樣本(training sample)是指:訓練資料中的每個樣本。

訓練集(training set)是指:訓練樣本組成的集合。

假設(hypothesis):學得模型對應了關於資料的某種潛在的規律。

「真相」或「真實」(groud-truth):這種潛在規律自身。

學習過程就是為了找出或逼近真相。

學習器(learner):本書有時將模型稱為learner,可看作學習演算法在給定資料和引數空間上的例項化。

機器學習一 機器學習概要

回歸 是指把實函式在樣本點附近加以近似的有監督的模式識別問題。對乙個或多個自變數和因變數之間關係進行建模,求解的一種統計方法。分類 是指對於指定的模式進行識別的有監督的模式識別問題。異常檢測 是指尋找輸入樣本ni 1i 1 n中所包含的異常資料的問題。常採用密度估計的方法 正常資料為靠近密度中心的資...

機器學習一

機器學習就是把無序的資料轉換成有用的資料資訊。機器學習分為監督學習以及無監督學習。監督學習適用分類和回歸為問題。監督學習必須要知道 什麼,即目標變數的分類資訊 1.1 分類 主要將例項資料劃分到合適的分類中。1.2 回歸 用於 數值型資料 無監督學習適用於資料沒有類別資訊,也沒有目標值。無監督學習中...

機器學習(一)

機器學習第一天 決策樹 include include include include includeusing namespace std using namespace cv using namespace cv ml 讀取檔案中的點座標 int readfile vector trainedp...