機器學習之監督學習介紹

2021-10-11 21:42:42 字數 2693 閱讀 2246

有監督學習提供資料並提供資料對應結果的機器學習過程。

監督學習的過程:

模型(model):總結資料的內在規律,用數學函式描述的系統

策略(strategy):選取最優模型的評價準則

演算法(algorithm):選取最優模型的具體方法

我們將資料輸入到模型中訓練出了對應模型,但是模型的效果好不好呢?我們需要對模型的好壞進行評估。首先說一下什麼是訓練集和測試集。

訓練集:輸入到模型中對模型進行訓練的資料集合

測試集:模型訓練完成後測試訓練效果的資料集合

(1)損失函式

(2) 損失函式的分類

(3)訓練誤差和測試誤差

——訓練誤差(training error)是關於訓練集的平均損失

——訓練誤差的大小,可以用來判斷給定問題是否容易學習,但本質上並不重要。

——測試誤差(testing error)是關於測試集的平均損失。

——測試誤差真正反映了模型對未知資料的**能力,這種能力一般被稱為泛化能力

(1)欠擬合和過擬合

模型沒有很好的捕捉到資料特徵,特徵集過小,導致模型不能很好地擬合資料,稱之為欠擬合(under-fitting)

欠擬合的本質是對資料的特徵「學習」得不夠

例如,想分辨乙隻貓,只給出了四條腿、兩隻眼、有尾巴這三個特徵,那麼由此訓練出來的模型根本無法分辨貓。

把訓練資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,特徵集過大,這樣就會導致在後期測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差,稱之為過擬合(over-fitting)

例如,想分辨乙隻貓,給出了四條腿、兩隻眼、一條尾巴、叫聲、顏色,能夠捕捉老鼠、喜歡吃魚、.....,然後恰好所有的訓練資料的貓都是白色,那麼這個白色就是乙個雜訊資料,會干擾判斷,結果模型把白色也學習到了,而白色是區域性樣本的特徵,不是全域性特徵,就造成了輸入乙個黑貓的資料,判斷出不是貓。

注意:

當模型複雜度增大時,訓練誤差會逐漸減小並趨向於0;而測試誤差會先減小,達到最小值之後再增大

當模型複雜都過大時,就會發生過擬合;所以模型複雜度應適當

(2)正則化和交叉驗證

正則化

--在經驗風險上加上表示模型複雜度的正則化項(regularizer),或者叫懲罰項

--正則化項一般是模型複雜度的單調遞增函式,即模型越複雜,正則化值越大

--形式:

--第一項是經驗風險,第二項j(f)是正則化項,

--正則化項可以取不同達到形式,比如,特徵向量的l1範數或l2範數

交叉驗證

資料集劃分

--如果樣本資料充足,一種簡單方法是隨機將資料集切成三部分:訓練集、驗證集和測試集

--訓練集用於訓練模型,驗證集用於模型選擇,測試集用於學習方法評估

資料不充足時,可以重複地利用資料--交叉驗證(cross validation)

— 資料隨機分為兩部分,如70%作為訓練集,剩下30%作為測試集

— 訓練集在不同的條件下(比如引數個數)訓練模型,得到不同的模型

— 在測試集上評價各個模型的測試誤差,選出最優模型

— 將資料隨機切分成s個互不相交、相同大小的子集;s-1個做訓練集,剩下乙個                做測試集

— 重複進行訓練集、測試集的選取,有s種可能的選擇

監督學習問題主要可以劃分為兩類,即分類問題回歸問題

—— 分類問題**資料屬於哪一類別。-- 離散

——回歸問題根據資料**乙個數值。   --連續

通俗地講,分類問題就是**資料屬於哪一種型別,就像房屋****,通過大量資料訓練模型,然後去**某個給房屋能不能**出去,屬於能夠**型別還是不能**型別。

回歸問題就是**乙個數值,比如給出房屋一些特徵,**房價

--按照輸入變數的個數:一元回歸和多元回歸

--按照模型型別:線性回歸和非線性回歸

回歸學習的損失函式——平方損失函式

機器學習之監督學習

一 監督學習的三要素 模型 總結資料的內在規律,用數學函式描述的系統 策略 選取最優模型的評價準則 演算法 選取最優模型的具體方法 二 監督學習的實現步驟 1.得到乙個有限的訓練資料集 2.確定包含所有學習模型的集合 3.確定模型選擇的準則,也就是學習策略 4.實現求解最優模型的演算法,也就是學習演...

機器學習筆記 監督學習,無監督學習,半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。什麼是學習 learning 學習 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂...

機器學習日記 監督學習 無監督學習

監督學習是指 利用一組已知類別的樣本調整 分類器的 引數,使其達到所要求效能的過程,也稱為 監督訓練或有教師學習。無監督學習 現實生活中常常會有這樣的問題 缺乏足夠的 先驗知識 因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類...