系統學習機器學習之監督學習

監督學習是從標記的訓練資料來推斷乙個功能的機器學習任務。訓練資料報括一套訓練示例。在監督學習中，每個例項都是由乙個輸入物件（通常為向量）和乙個期望的輸出值（也稱為監督訊號）組成。監督學習演算法是分析該訓練資料，並產生乙個推斷的功能，其可以用於對映出新的例項。乙個最佳的方案將允許該演算法來正確地決定那些看不見的例項的類標籤。這就要求學習演算法是在一種「合理」的方式從一種從訓練資料到看不見的情況下形成。

基本定義：

利用一組已知類別的樣本調整分類器的引數，使其達到所要求效能的過程，也稱為監督訓練或有教師學習。

監督學習是從標記的訓練資料來推斷乙個功能的機器學習任務。

一點總結：

1.樣本雜訊型別：

1>.記錄輸入屬性可能不準確，這會導致資料在輸入空間上移動

2>.標記資料點可能有錯，比如正負標反，這種情況稱為指導雜訊

3>.可能存在我們沒有考慮到的其他屬性，而他們影響例項的標註，可能是隱藏的，或者潛在的，屬於隨機成分。

2.在模型選擇上，簡單模型會複雜模型的泛化能力好，即奧克姆剃刀規則。同時，我們把為了使得學習成為可能所做的假設集稱為學習演算法的歸納偏倚。

3.利用三元權衡得到在所有的由例項資料訓練的學習演算法中，存在在以下三種因素中平衡：

1>.擬合資料的假設的複雜性，即假設類的能力

2>.訓練資料的總量

3>.在新的例項上的泛化誤差

監督學習中需要注意的問題：

1、偏置方差權衡

第乙個問題就是偏見和方差之間的權衡。假設我們有幾種不同的,但同樣好的演算資料集。一種學習演算法是基於乙個未知數的輸入，在經過這些資料集的計算時,系統會無誤的**到並將正確的未知數輸出。乙個學習演算法在不同的演算集演算時如果**到不同的輸出值會對特定的輸入有較高的方差。乙個**誤差學習分類器是與學習演算法中的偏差和方差有關的。一般來說,偏差和方差之間有乙個權衡。較低的學習演算法偏差必須「靈活」,這樣就可以很好的匹配資料。但如果學習演算法過於靈活,它將匹配每個不同的訓練資料集,因此有很高的方差。許多監督學習方法的乙個關鍵方面是他們能夠調整這個偏差和方差之間的權衡(通過提供乙個偏見/方差引數,使用者可以調整)。

2、功能的複雜性和數量的訓練資料

第二個問題是訓練資料可相對於「真正的」功能（分類或回歸函式）的複雜度的量。如果真正的功能是簡單的，則乙個「不靈活的」學習演算法具有高偏壓和低的方差將能夠從乙個小資料量的學習。但是，如果真功能是非常複雜的（例如，因為它涉及在許多不同的輸入要素的複雜的相互作用，並且行為與在輸入空間的不同部分），則該函式將只從乙個非常大的數量的訓練資料，並使用可學習「靈活」的學習演算法具有低偏置和高方差。因此，良好的學習演算法來自動調整的基礎上可用的資料量和該函式的明顯的複雜性要學習的偏壓/方差權衡。

3、輸入空間的維數

第三個問題是輸入空間的維數。如果輸入特徵向量具有非常高的維數，學習問題是很困難的，即使真函式僅依賴於乙個小數目的那些特徵。這是因為許多「額外」的尺寸可混淆的學習演算法，並使其具有高方差。因此，高的輸入維數通常需要調整分類器具有低方差和高偏置。在實踐中，如果工程師能夠從輸入資料手動刪除不相關的特徵，這是有可能改善該學習功能的準確性。此外，還有許多演算法的特徵選擇，設法確定相關特徵，並丟棄不相關的。這是維數降低，其目的是將輸入資料對映到較低維空間中執行的監督學習演算法之前的更一般的策略的乙個例項。

4、雜訊中的輸出值

第四個問題是在所需要的輸出值（監控目標變數）的雜訊的程度。如果所希望的輸出值，通常是不正確的（因為人為錯誤或感測器的錯誤），則學習演算法不應試圖找到乙個函式完全匹配的訓練示例。試圖以適應資料過於謹慎導致過度擬合。當沒有測量誤差（隨機雜訊），如果你正在努力學習功能，是您學習模式太複雜，你甚至可以過度擬合。在這種情況下的目標函式，該函式不能被模擬「腐化」你的訓練資料的那部分-這一現象被稱為確定性的雜訊。當任一型別的雜訊存在時，最好是去乙個更高的偏見，低方差估計。

例項分析：

系統學習機器學習之監督學習

機器學習之監督學習

機器學習筆記監督學習，無監督學習，半監督學習

無監督學習和強化學習機器學習

系統學習機器學習之監督學習

機器學習之監督學習

機器學習筆記 監督學習，無監督學習，半監督學習

無監督學習和強化學習機器學習

相關推薦

機器學習筆記監督學習，無監督學習，半監督學習