機器學習基本問題定義，任務確定和概念理解

機器學習從本質上是乙個多學科的領域。它吸取了人工智慧、概率統計、計算複雜性理論、控制論、資訊理論、哲學、生理學、神經生物學等學科的成功。機器學習，是電腦程式通過經驗來提高某任務處理效能的行為。

更準確的定義：

定義：如果乙個電腦程式針對某類任務t的用p衡量的效能根據經驗e來自我完善。那麼我們稱這個電腦程式在從經驗e中學習，針對某類任務t，它的效能用p來衡量。

通常，為了很好的定義乙個學習問題，我們最後明確三個特徵：

任務的種類，衡量任務提高的標準，經驗的**。

例如：手寫識別學習問題：

任務t:識別和分類影象中的手寫文字

效能標準p：分類的正確率

訓練經驗e：已知分類的手寫文字資料庫（知識庫）

當問題特徵分析清楚後，最重要的就是對學習系統的設計了。

選擇模型（例如線性模型、人工神經網路等）

學習演算法來訓練其中的各種的引數和權重

對已有資料（訓練樣例）進行模型或函式的最佳擬合

不斷學習和修正

在機器學習方面，乙個有效的觀點是機器學習問題經常歸結於搜尋問題，即對乙個非常大的假設空間進行搜尋，以確定乙個最佳擬合觀察到的資料和學習器已有知識的假設。通常，學習器的任務就是搜尋某個搜尋域空間來定位與訓練資料最佳擬合的假設。

通過搜尋策略和學習器探索的搜尋空間的內在結構來刻畫學習方法。我們會發現，這種觀點對於形式化地分析要搜尋的假設空間的大小、可利用的訓練樣例的數量以及乙個與訓練資料的一致的假設能泛化到未見例項的置信度這三者的關係很有效。

對於乙個機器學習問題，常常需要思考如下問題：

1 存在什麼樣的演算法能從特定的訓練資料學習一般的目標函式呢？如果提供充足的訓練資料，什麼樣的條件下會使特定的演算法收斂到期望的函式？哪個演算法對哪些問題和表示的效能最好。

2 多少訓練資料是充足的？怎樣找到學習到假設的置信度與訓練資料的數量及提供給學習器的假設空間特性之間的一般關係？

3 學習器擁有的先驗知識是怎樣引導從樣例進行泛化的過程的？當先驗知識僅僅是近似正確時，它們會有幫助嗎？

4 關於選擇有效的後續訓練經驗，什麼樣的策略最好？這個策略的選擇會如何影響學習問題的複雜性？

5 怎樣把學習任務簡化為乙個或多個函式逼近問題？換一種方式，該系統試圖學習哪些函式？這個過程本身能自動化嗎？

6 學習器怎樣自動地改變表示法來提高表示和學習目標函式的能力？

註明：以上內容，摘自和總結於 mitchell,t.m 《machine learning》

機器學習 基本問題定義，任務確定和概念理解