給西瓜澆水問題的馬爾可夫決策過程理解

2021-10-10 12:48:21 字數 1157 閱讀 8251

理解自 周志華《機器學習》

在強化學習的過程中,首先是對強化學習的理解,可用馬爾可夫決策過程(markov decision process, mdp)來理解:

機器處於環境e中,狀態空間為x

xx,其中每個狀態x∈x

x∈xx∈

x是機器感知到的環境的描述,機器能採取的動作構成了動作空間a

aa,若某個動作a∈a

a∈aa∈

a作用在當前狀態x

xx上,則潛在的轉移函式p

pp將使得環境從當前狀態按某種概率轉移到另乙個狀態,同時,環境會根據潛在的「獎賞函式r

rr」反饋給機器乙個獎賞。

在上述中,最優策略為:在「健康」狀態時選擇「澆水」、在「溢水」狀態時選擇「不澆水」、在「缺水」狀態時選擇「澆水」、在「凋亡」狀態時選擇」澆水「貨」不澆水「都可以。上述最優策略使根據動作所對應p

pp(概率)來得出最優獎賞的過程。

機器的任務就是通過在環境中不斷城市而學得乙個」策略「(policy)π

\piπ,根據這個策略,在狀態x

xx下就能得知要執行的動作a=π

(x)a=\pi(x)

a=π(x)

。策略有兩種:

確定性策略:表示為π:x

\pi:x

π:x➡a

aa,即乙個狀態x

xx下對應乙個確定的動作a

aa下。

隨機性策略:表示為π:x

\pi:x

π:x×a

aa➡r

rr,其中π(x

,a)\pi(x,a)

π(x,a)

表示狀態x

xx下選擇動作a

aa的概率,並且不同狀態對應的概率之和為1。

強化學習與監督學習的區別若狀態對應示例,動作對應標記,則策略相當於分類器(離散)或者回歸器(連續)。但強化學習中沒有有標記樣本,在某種意義上可看作」具有延遲標記資訊「的監督學習問題。

馬爾可夫決策過程(四)

最近學習了 mdp,檢視一些資料,本文翻譯了維基百科 有許多地方翻譯的不好,有翻譯錯的地方請多多諒解!歡迎給我留下意見,我會盡快更改!值得注意的變種 值迭代 在值迭代 貝爾曼 1957 年 中,也被稱為 逆向歸納法,陣列是不被使用的,而是當需要時就計算 s 的值。代入 s 的計算結果到 v s 得到...

馬爾可夫決策過程 MDP

但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...

work 馬爾可夫決策過程MDP

1.馬爾可夫模型的幾類子模型 大家應該還記得馬爾科夫鏈 markov chain 了解機器學習的也都知道隱馬爾可夫模型 hidden markov model,hmm 它們具有的乙個共同性質就是馬爾可夫性 無後效性 也就是指系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關。馬爾可夫決策過程...