機器學習 基本問題定義,任務確定和概念理解

2021-07-02 07:03:43 字數 1248 閱讀 8761

機器學習從本質上是乙個多學科的領域。它吸取了人工智慧、概率統計、計算複雜性理論、控制論、資訊理論、哲學、生理學、神經生物學等學科的成功。機器學習,是電腦程式通過經驗來提高某任務處理效能的行為。

更準確的定義:

定義:如果乙個電腦程式針對某類任務t的用p衡量的效能根據經驗e來自我完善。那麼我們稱這個電腦程式在從經驗e中學習,針對某類任務t,它的效能用p來衡量。

通常,為了很好的定義乙個學習問題,我們最後明確三個特徵:

任務的種類,衡量任務提高的標準,經驗的**。

例如:手寫識別學習問題:

任務t:識別和分類影象中的手寫文字

效能標準p:分類的正確率

訓練經驗e:已知分類的手寫文字資料庫(知識庫)

當問題特徵分析清楚後,最重要的就是對學習系統的設計了。

選擇模型(例如線性模型、人工神經網路等)

學習演算法來訓練其中的各種的引數和權重

對已有資料(訓練樣例)進行模型或函式的最佳擬合

不斷學習和修正

在機器學習方面,乙個有效的觀點是機器學習問題經常歸結於搜尋問題,即對乙個非常大的假設空間進行搜尋,以確定乙個最佳擬合觀察到的資料和學習器已有知識的假設。通常,學習器的任務就是搜尋某個搜尋域空間來定位與訓練資料最佳擬合的假設。

通過搜尋策略和學習器探索的搜尋空間的內在結構來刻畫學習方法。我們會發現,這種觀點對於形式化地分析要搜尋的假設空間的大小、可利用的訓練樣例的數量以及乙個與訓練資料的一致的假設能泛化到未見例項的置信度這三者的關係很有效。

對於乙個機器學習問題,常常需要思考如下問題:

1 存在什麼樣的演算法能從特定的訓練資料學習一般的目標函式呢?如果提供充足的訓練資料,什麼樣的條件下會使特定的演算法收斂到期望的函式?哪個演算法對哪些問題和表示的效能最好。

2 多少訓練資料是充足的?怎樣找到學習到假設的置信度與訓練資料的數量及提供給學習器的假設空間特性之間的一般關係?

3 學習器擁有的先驗知識是怎樣引導從樣例進行泛化的過程的?當先驗知識僅僅是近似正確時,它們會有幫助嗎?

4 關於選擇有效的後續訓練經驗,什麼樣的策略最好?這個策略的選擇會如何影響學習問題的複雜性?

5 怎樣把學習任務簡化為乙個或多個函式逼近問題?換一種方式,該系統試圖學習哪些函式?這個過程本身能自動化嗎?

6 學習器怎樣自動地改變表示法來提高表示和學習目標函式的能力?

註明:以上內容,摘自和總結於 mitchell,t.m 《machine learning》

機器學習基本概念和模型訓練基本問題

二叉樹很容易理解,在這裡我們一般用滿二叉樹 就是非葉子節點都有2個分支的樹形資料結構 決策樹最初是用來做決策用的,就好像下面的見不見相親物件的決策過程一樣 如果把最後的決策結果看成是分類,那麼決策樹就可以用來分類了,例如,下面的例子就是把相親物件分為見和不見兩種。假如下面是你是否見相親物件的決策樹,...

遇到問的機器學習基本問題(2)

1.logistic回歸 手動求導 2.svm支援向量機 現在假設有兩類線性可分的樣本,一類圈圈,一類叉叉。分類問題就是要找乙個超平面,將這兩類分開,但是能分割開這兩類的超平面有很多,如下面的圖所示。感知機演算法就是隨機的找到乙個能夠分開的超平面,它並不關心這個超平面如何。下面三個圖中,直覺上感覺,...

執行緒和程序的基本問題

執行緒和程序的比較 1.程序是資源分配的基本單位。2.執行緒是獨立排程的基本單位。3.在同乙個程序中,執行緒的切換不會引起程序的切換。在不同的程序中進行執行緒切換,如從乙個程序中的執行緒切換到另乙個程序中的執行緒會引起程序的切換。4.乙個程序至少包含乙個執行緒,執行緒共享整個程序的資源 5.程序結束...