筆記機器學習第一章

機器學習方法在大型資料庫中的應用成為資料探勘data mining。

模式識別應用：光學字元識別orc，人臉識別，醫學診斷，語音識別，生物測定學，從資料中學習規則（知識抽取），離群點檢測。

回歸：給定一定的屬性資訊，輸出乙個結果，並從資料中獲取乙個較符合的曲線。

過擬合是一定程度上過度擬合實驗數值，誤差很小，但可能造成實際資料與該規律想差很大。

監督學習，我們目標是學習從輸入到輸出的對映關係，其中輸出的正確值已經有工作人員提供。

非監督學習中沒有這樣提供這樣正確值的工作人員，只有輸入資料，我們的目標是發現輸入資料中的規律。

監督學習

雜訊雜訊是資料中有害的異常。當雜訊存在時，在正例和負例之間不存在簡單的邊界。需要有更大能力的假設類的複雜假設。雜訊有以下幾種解釋：

1.記錄的輸入屬性可能不準確，導致資料點在輸入空間中移動。

2.標記的資料點可能有錯誤，可能將正例標記為負的，或相反。這種情況有時稱為指導雜訊。

可能存在沒有考慮到的附加屬性，而他們會影響例項的標記。這些附加屬性可能是隱藏的或潛在的。因此是不可能觀察的。這些被忽略的屬性所造成的影響作為隨機成分建模。

如果輸入資料中確實存在錯誤標記的例項或雜訊，並且實際的類確實就是矩形這樣的簡單模型，那麼由於矩形具有較小的方差，並且較少地被單個例項所影響，所以儘管簡單矩形可能導致訓練集上較大的誤差，但是它也是比曲線圖形更好的分類器。給定類似的經驗誤差，我們說簡單模型比複雜模型泛化能力更好。該原則就是著名的奧克姆剃刀，它說較簡單的解釋看上去更可信。

泛化問題，即我們的假設對不在訓練集中的未來例項分類準確如何。給定乙個接近於正例和負例邊界的某個未來例項，不同的候選假設可能做出不同的**。

模型選擇與泛化

資料可能會擬合可能會發生欠擬合和過擬合。

我們可以引用三元權衡triple trade-off,由樣本資料訓練的學習演算法中，存在以下3種因素之間的平衡：

1. 擬合資料假設的複雜度，即假設能力。

2. 訓練資料的總量。

3. 在新的樣本上的泛化誤差。

如果我們訪問訓練集以外的資料，則我們就能度量假設的泛化能力，即他的歸納偏倚的質量。

所以把訓練集分為兩部分：一部分是訓練集train（擬合乙個假設）、剩下的作為驗證集validation set，它用來檢驗假設的泛化能力。如果需要報告最佳模型的期望誤差，我們需要第三個資料集--檢驗集test set（發布集），包含訓練或驗證階段未使用過的資料。

筆記 機器學習第一章

機器學習第一章

機器學習第一章

《機器學習》 第一章

相關推薦

筆記機器學習第一章

《機器學習》第一章