機器學習之監督學習介紹

有監督學習提供資料並提供資料對應結果的機器學習過程。

監督學習的過程：

模型（model）：總結資料的內在規律，用數學函式描述的系統

策略（strategy）：選取最優模型的評價準則

演算法（algorithm）：選取最優模型的具體方法

我們將資料輸入到模型中訓練出了對應模型，但是模型的效果好不好呢？我們需要對模型的好壞進行評估。首先說一下什麼是訓練集和測試集。

訓練集：輸入到模型中對模型進行訓練的資料集合

測試集：模型訓練完成後測試訓練效果的資料集合

（1）損失函式

（2）損失函式的分類

（3）訓練誤差和測試誤差

——訓練誤差（training error）是關於訓練集的平均損失

——訓練誤差的大小，可以用來判斷給定問題是否容易學習，但本質上並不重要。

——測試誤差（testing error）是關於測試集的平均損失。

——測試誤差真正反映了模型對未知資料的**能力，這種能力一般被稱為泛化能力

（1）欠擬合和過擬合

模型沒有很好的捕捉到資料特徵，特徵集過小，導致模型不能很好地擬合資料，稱之為欠擬合（under-fitting）

欠擬合的本質是對資料的特徵「學習」得不夠

例如，想分辨乙隻貓，只給出了四條腿、兩隻眼、有尾巴這三個特徵，那麼由此訓練出來的模型根本無法分辨貓。

把訓練資料學習的太徹底，以至於把雜訊資料的特徵也學習到了，特徵集過大，這樣就會導致在後期測試的時候不能夠很好地識別資料，即不能正確的分類，模型泛化能力太差，稱之為過擬合（over-fitting）

例如，想分辨乙隻貓，給出了四條腿、兩隻眼、一條尾巴、叫聲、顏色，能夠捕捉老鼠、喜歡吃魚、.....,然後恰好所有的訓練資料的貓都是白色，那麼這個白色就是乙個雜訊資料，會干擾判斷，結果模型把白色也學習到了，而白色是區域性樣本的特徵，不是全域性特徵，就造成了輸入乙個黑貓的資料，判斷出不是貓。

注意：

當模型複雜度增大時，訓練誤差會逐漸減小並趨向於0；而測試誤差會先減小，達到最小值之後再增大

當模型複雜都過大時，就會發生過擬合；所以模型複雜度應適當

（2）正則化和交叉驗證

正則化

--在經驗風險上加上表示模型複雜度的正則化項（regularizer），或者叫懲罰項

--正則化項一般是模型複雜度的單調遞增函式，即模型越複雜，正則化值越大

--形式：

--第一項是經驗風險，第二項j(f)是正則化項，

--正則化項可以取不同達到形式，比如，特徵向量的l1範數或l2範數

交叉驗證

資料集劃分

--如果樣本資料充足，一種簡單方法是隨機將資料集切成三部分：訓練集、驗證集和測試集

--訓練集用於訓練模型，驗證集用於模型選擇，測試集用於學習方法評估

資料不充足時，可以重複地利用資料--交叉驗證（cross validation）

— 資料隨機分為兩部分，如70%作為訓練集，剩下30%作為測試集

— 訓練集在不同的條件下（比如引數個數）訓練模型，得到不同的模型

— 在測試集上評價各個模型的測試誤差，選出最優模型

— 將資料隨機切分成s個互不相交、相同大小的子集；s-1個做訓練集，剩下乙個做測試集

— 重複進行訓練集、測試集的選取，有s種可能的選擇

監督學習問題主要可以劃分為兩類，即分類問題和回歸問題。

—— 分類問題**資料屬於哪一類別。-- 離散

——回歸問題根據資料**乙個數值。 --連續

通俗地講，分類問題就是**資料屬於哪一種型別，就像房屋****，通過大量資料訓練模型，然後去**某個給房屋能不能**出去，屬於能夠**型別還是不能**型別。

回歸問題就是**乙個數值，比如給出房屋一些特徵，**房價

--按照輸入變數的個數：一元回歸和多元回歸

--按照模型型別：線性回歸和非線性回歸

回歸學習的損失函式——平方損失函式

機器學習之監督學習

一監督學習的三要素模型總結資料的內在規律，用數學函式描述的系統策略選取最優模型的評價準則演算法選取最優模型的具體方法二監督學習的實現步驟 1.得到乙個有限的訓練資料集 2.確定包含所有學習模型的集合 3.確定模型選擇的準則，也就是學習策略 4.實現求解最優模型的演算法，也就是學習演...

機器學習筆記監督學習，無監督學習，半監督學習

這個問題可以回答得很簡單是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤，則為有監督學習，沒標籤則為無監督學習。什麼是學習 learning 學習乙個成語就可概括舉一反三。此處以高考為例，高考的題目在上考場前我們未必做過，但在高中三年我們做過很多很多題目，懂...

機器學習日記監督學習無監督學習

監督學習是指利用一組已知類別的樣本調整分類器的引數，使其達到所要求效能的過程，也稱為監督訓練或有教師學習。無監督學習現實生活中常常會有這樣的問題缺乏足夠的先驗知識因此難以人工標註類別或進行人工類別標註的成本太高。很自然地，我們希望計算機能代我們完成這些工作，或至少提供一些幫助。根據類...

機器學習之監督學習介紹

機器學習之監督學習

機器學習筆記 監督學習，無監督學習，半監督學習

機器學習日記 監督學習 無監督學習

相關推薦

機器學習筆記監督學習，無監督學習，半監督學習

機器學習日記監督學習無監督學習