機器學習學習筆記(一) 緒論

2021-08-31 01:15:47 字數 1367 閱讀 5528

之前寫了一篇深度學習、優化與識別的學習筆記,但是後來豆瓣書評上對這本書的評價不高,就直接放棄刪除了。

1.1引言

1.2基本術語

要進行機器學習,先要有資料,假定我們收集了一批關於西瓜的資料,例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響),(色澤=烏黑;根蒂=稍蜷;敲聲=沉悶),(色澤=淺白;根蒂=硬挺;敲聲=清脆),······,每對括號內是一條記錄,「=」意思是「取值為」。

這組記錄的集合稱為乙個「資料集」,其中每條記錄是關於乙個事件或物件(這裡是乙個西瓜)的描述,稱為乙個「示例」或「樣本」。反映事件或物件在某方面的表現或性質的事項,例如「色澤」「根蒂」「敲聲」,稱為「屬性」或「特徵」;屬性上的取值,;如「青綠」,「烏黑」,稱為屬性值。屬性張成的空間稱為「屬性空間」、「樣本空間」或「輸入空間」。例如我們把「色澤」「根蒂」「敲聲」作為三個座標軸,則它們張成乙個用於描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的座標位置,由於空間中的每個點對應乙個座標向量,因此我們也把乙個示例稱為乙個「特徵向量」。

一般地,令d=表示包含m個示例的資料集,每個示例由d個屬性描述(例如上面的西瓜資料使用了3個屬性)。

學的模型後,使用其進行**的過程叫做「測試」,被**的樣本稱為「測試樣本」。

我們還可以對西瓜進行進行「聚類」,即將訓練集中的西瓜分成若干組,每組稱為乙個「簇」。根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩大類:「監督學習」和「無監督學習」,分類和回歸是前者的代表,而聚類則是後者的代表。

我們希望機器學習訓練出來的模型不止適用於訓練樣本,同樣還能適用於新樣本,稱為「泛化」。

1.3假設空間

若仍然採用上面的例子,則可將好瓜和壞瓜當作我們的學習目標,我們可以把學習過程看作乙個在所有假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配」的假設,即能夠將訓練集中判斷正確的假設。假設的表示一旦確定,假設空間及其規模大小就確定了。這裡我們的假設空間由形如「(色澤=?)與(根蒂=?)與(敲聲=?)」的可能取值所形成的假設組成。

1.4歸納偏好

任何乙個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上「等效」的假設所迷惑,而無法產生確定的學習結果。可以想象,如果沒有偏好,我們的西瓜學習演算法產生的模型每次在進行**時隨機抽選訓練集上的等效假設,那麼對於乙個新瓜,學得模型時而告訴我們它是好的、時而告訴我們它是不好的,這樣的學習結果是沒有意義的。

1.5發展歷程

1.6應用現狀

1.7閱讀材料

《機器學習》筆記(一) 緒論

機器學習定義 機器學習是對依據經驗提公升自身效能或豐富自身知識的各種演算法和系統的系統性研究。機器學習 原料 任務 模型及特徵,模型佔據中心地位。正確特徵 正確模型 完成任務 任務與學習問題的區別 任務 通過模型來完成 學習問題 學習任務 通過能夠產生模型的學習演算法來解決 機器學習方法的核心 依據...

周志華《機器學習》筆記(一)緒論

第一章 緒論 1 資料集 data set 機器學習資料的集合 2 示例 樣本 instance sample 每條資料描述了乙個物件的資訊,該物件稱之為示例,一般用x表示 3 屬性 attribute 資料描述的樣本在某些方面的性質 4 樣本空間 sample space 樣本張成的空間,又稱 屬...

機器學習西瓜書 學習筆記(一) 緒論

開始學ml了!第一次用csdn寫blog,聊以自娛,也算是監督和動力叭 基本概念 機器學習 研究如何通過計算的手段,利用經驗來改善系統自身的效能 研究物件 學習演算法 統計學習 是一套以理解資料為目的的龐大工具集 學習演算法 在計算機上從資料中產生模型的演算法l mathcal l 模型 學習器 從...