機器學習（一）

使用樣例來合成電腦程式的過程稱為學習方法，其中樣例由輸入或者輸出給出時，稱為監督學習。有關輸入和輸出的函式關係成為訓練資料。

輸入和輸出通常反映了把輸入對映到輸出的一種函式關係，當輸入到輸出存在內在函式時，該函式稱為目標函式。由學習演算法輸出對目標函式的估計稱為學習問題的解（對於分類問題，被稱為決策函式）。存在一系列候選函式可把輸入空間對映到輸出域，選擇一組或者一類候選函式，它們稱為假設集合。例如：決策樹是通過構造二叉樹而產生假設，樹的內部節點是簡單的決策函式，而葉節點是輸出值。因此把假設集合或者假設空間的選擇看作學習過程的關鍵因素，而從訓練資料中學習並從假設空間中選擇假設的演算法是第二個重要因素，它稱為學習演算法。

在輸出時，有二元輸出的問題成為二類問題，有多個類別的問題稱為多類問題，而實數值輸出的問題稱為回歸問題，在學習中，二類問題通常作為最簡單的情形率先被考慮。

泛化性準則對於學習演算法附加了另一種約束，這一點可以由一種極端情形下的機械式學習來充分證明，許多經典的機器學習演算法能夠表示任意函式，並且對於困難的訓練資料集會得到乙個類似機械式學習器的假設，所謂機械式學習器是指能夠正確分類訓練資料，但對所有未見資料會做出根本無關聯性額度**。例如：決策樹有可能過度增長直到針對每個訓練樣例只有乙個葉子節點，為了得到一致假設而使假設過度複雜稱為過擬合，控制此問題的一種方法是限制假設的規模，例如對於決策樹可進行修剪操作。這種採用的方法是為了獲得另一種平衡，它涉及泛化誤差率上的統計邊界，這些邊界通常依賴於分類器間隔這樣的變數，並引發最優化該變數的演算法，該途徑的缺點在於此演算法不會好於統計結果，因此能避免基於錯誤直覺的啟發式方法帶來的危險。

演算法設計基於統計結果這一點並非意味著忽略解決此類優化問題的計算複雜度，所感興趣的技術需要擁有可伸縮性，它應該能湊夠玩具世界的問題到包含上萬條記錄的真實資料集的問題，只有通過對計算複雜度的原則性分析，才能避免滿足於那些只在小樣本上表現良好，卻對大訓練集完全失效的啟發式規則，計算複雜度理論研究了兩類問題，第一類問題是是否存在演算法能夠在輸入規模的多項式時間內執行的問題，第二類問題是如果存在這樣的演算法，任意解是否能在多項式時間內檢驗，也就是能不能在多項式時間內求解的問題，後一類問題即為np完全問題，通常認為這些問題不能有效求解。

貝葉斯分析的出發點是假設集合上的先驗分布，它描述了學習器對於資料特定假設的似然性的先驗理念。只要能假定這樣的先驗分布，再加上資料如何被雜訊干擾的模型，原則上就有可能在給定訓練集合的情況下估計最可能的假設，甚至於可以在可能假設的集合上做加權平均。

如果不對所有可能的假設（即對輸入空間到輸出域的所有可能的目標函）的集合加以限制，學習是不能完成的，因為訓練資料本身無法對未見樣例進行分類，如果放寬限制，使得可以在看到資料後再自由的選擇假設集合，這同樣也會產生問題，因為可能會簡單的假定正確的假設具有任意先驗概率。在此意義上所有學習系統必須做出貝葉斯模型的先驗假定，它稱為學習偏置。

機器學習（一）

機器學習一機器學習概要

機器學習一

機器學習（一）

機器學習（一）

機器學習一 機器學習概要

機器學習一

機器學習（一）

相關推薦

機器學習一機器學習概要