機器學習筆記 基本概念

2021-10-09 00:10:46 字數 3012 閱讀 2459

首先我們以人來舉例:你在買蘋果的時候,看到乙個蘋果,它黃裡透紅、果皮粗糙、硬度稍軟,我們就可以判斷它比較甜,這是因為我們已經有了類似的經驗,通過對經驗的應用就可以做出相應的判斷。

這種對經驗的利用是我們自發形成的,但是機器是否能做到呢。

機器學習就是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能。在計算機系統中,「經驗」通常就是我們所說的資料。因此,機器學習的主要內容就是關於在計算機上從資料中產生「模型」的演算法——「學習演算法」。有了演算法,就能過基於經驗資料產生模型,在面對新情況時,根據初始資料,模型可以**出相應結果。

屬性(特徵):色澤、手感、硬度

屬性值:黃紅、粗糙、軟

記錄(例項):關於乙個事件或物件的描述(色澤=黃紅;手感=粗糙;硬度=軟)。

資料集:記錄的集合。

樣本:單個記錄或者資料集,根據上下文判斷。

學習(訓練):通過某個學習演算法從資料中學得模型。

標記資訊:訓練樣本的結果資訊(甜)

分類任務:**結果為離散值(甜、酸)

回歸任務:**結果為連續值(甜度0.9、甜度0.75)

聚類:將物理或抽象物件的集合分成由類似的物件組成的多個類

監督學習:有標記資訊,根據已有的輸入和輸出結果之間的關係,訓練得到乙個最優的模型(分類、回歸為代表)。

無監督學習:無標記資訊,不知道資料、特徵之間的關係,而是要根據其內在聯絡進行分類(聚類為代表)。

(術語名字較多,僅簡單介紹幾個,不需要死記硬背,只要在閱讀相關資料時理解即可,無需糾結)

歸納和演繹是科學推理的兩大基本手段,前者是從特殊到一般(泛化過程),後者是從一般到特殊(特化過程)。

機器學習是一種「從樣例中學習」的過程,因此也稱為「歸納學習」

我們以蘋果為例,有三種屬性——色澤(黃、紅、黃紅)、手感(粗糙、細膩、一般)、硬度(軟、硬、一般),假設有以下訓練資料集:

編號色澤

手感硬度口感1

黃紅粗糙軟甜

2紅粗糙軟

甜3黃紅細膩硬酸

4紅一般一般

機械學習就是將訓練集中的所有資料記住,之後再見到一模一樣的資料自然可以判斷。

但是我們的目標是學得的模型能夠很好地適用於「新樣本」,這就要依賴機器學習學習過程,追求的不僅僅是在訓練樣本上工作的很好,適用於「新樣本」的能力被稱為「泛化」能力,具有強泛化能力的模型能夠很好地使用於整個樣本空間。

一般而言,訓練樣本越多,得到的模型就越可能具有強泛化能力。

我們可以把學習過程看做是在所有假設組成的而空間中進行搜尋的過程,搜尋目標是找到與訓練集匹配的假設(能正確**訓練資料的假設),色澤、手感、硬度均有四種可能(三種正常情況 + 隨意 * ),還有一種極端情況(甜或酸的概念不成立,視為φ),則假設空間規模的大小為4*4*4+1 = 65

現實情況中我們會面臨很大的假設空間,但學習過程是基於有限的訓練集進行的,因此可能有很多假設與訓練集一致,即存在乙個假設集合,我們稱之為版本空間,例如上述訓練集的假設空間和版本空間如下:

假設空間(所有可能的假設的集合)

版本空間(所有與訓練集符合的假設的集合——判斷為甜)

如上圖的版本空間所示,每乙個假設都對應乙個模型。

我們根據訓練集得到了三個相符的假設(模型),但是對於新的樣本來說,不同的模型判斷結果也會不同,所以我們應該使用哪乙個模型呢?

僅對於上述訓練集,我們無法判斷哪個模型更好,但是我們使用的學習演算法本身會有「偏好」。如果演算法喜歡「特殊」,則會選擇(色澤=*;手感=粗糙;硬度=軟);如果喜歡「一般」並且相信手感,則會選擇(色澤=*;手感=粗糙;硬度=*)。這種演算法的「偏好」就稱為「歸納偏好」或「偏好」,任何乙個演算法都有歸納偏好。

例如下圖中我們可以看到,相同的訓練集存在多條曲線相符。

那有沒有一種「價值觀」去引導演算法選擇偏好呢,「奧卡姆剃刀」是一種常用的、自然科學研究中最基本的原則,即「若有多個假設與觀察一致,則選擇最簡單的那個」。它並非是唯一可行的原則而且對於「簡單」的定義並不簡單。

很多讀者肯定認為圖中平滑的曲線泛化能力更強,但是事實上另一條曲線在某些問題上表現更好。

最有趣的是,根據數學證明可知,兩條曲線對應的學習演算法總誤差的期望相同,且總誤差與學習演算法無關。這就是「沒有免費的午餐」定理(nfl定理),所有學習演算法的期望和隨機猜測的差不多,那這還有什麼可學的?

其實nfl定理有乙個前提:所有問題同等重要,但事實並不是這樣,我們設計的演算法總是要去解決乙個具體問題,而這個演算法在其他問題上是否優秀我們並不關心,所以任何學習演算法都不能脫離實際問題,具體問題具體分析,空談學習演算法沒有任何意義,學習演算法自身的歸納偏好和問題是否匹配往往起到決定性作用。

ML筆記 機器學習基本概念

監督學習 以已知結果的資料集作為訓練樣本。基本流程 輸入資料 特徵工程 模型訓練 模型部署 模型應用。監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示,也就是說學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間。假設空間的確定意味著學...

機器學習常見基本概念筆記

監督學習和非監督學習 有監督學習的方法就是識別事物,識別的結果表現在給待識別資料加上了標籤。因此訓練樣本集必須由帶標籤的樣本組成。比如分類和回歸。而無監督學習方法只有要分析的資料集的本身,預先沒有什麼標籤。如果發現資料集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標籤對上號為目的。如...

機器學習基本概念

什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...