給西瓜澆水問題的馬爾可夫決策過程理解

理解自周志華《機器學習》

在強化學習的過程中，首先是對強化學習的理解，可用馬爾可夫決策過程（markov decision process, mdp)來理解:

機器處於環境e中，狀態空間為x

xx，其中每個狀態x∈x

x∈xx∈

x是機器感知到的環境的描述，機器能採取的動作構成了動作空間a

aa，若某個動作a∈a

a∈aa∈

a作用在當前狀態x

xx上，則潛在的轉移函式p

pp將使得環境從當前狀態按某種概率轉移到另乙個狀態，同時，環境會根據潛在的「獎賞函式r

rr」反饋給機器乙個獎賞。

在上述中，最優策略為：在「健康」狀態時選擇「澆水」、在「溢水」狀態時選擇「不澆水」、在「缺水」狀態時選擇「澆水」、在「凋亡」狀態時選擇」澆水「貨」不澆水「都可以。上述最優策略使根據動作所對應p

pp（概率）來得出最優獎賞的過程。

機器的任務就是通過在環境中不斷城市而學得乙個」策略「（policy）π

\piπ，根據這個策略，在狀態x

xx下就能得知要執行的動作a=π

(x)a=\pi(x)

a=π(x)

。策略有兩種：

確定性策略：表示為π：x

\pi：x

π：x➡a

aa，即乙個狀態x

xx下對應乙個確定的動作a

aa下。

隨機性策略：表示為π：x

\pi：x

π：x×a

aa➡r

rr，其中π(x

,a)\pi(x,a)

π(x,a)

表示狀態x

xx下選擇動作a

aa的概率，並且不同狀態對應的概率之和為1。

強化學習與監督學習的區別若狀態對應示例，動作對應標記，則策略相當於分類器（離散）或者回歸器（連續）。但強化學習中沒有有標記樣本，在某種意義上可看作」具有延遲標記資訊「的監督學習問題。

馬爾可夫決策過程（四）
最近學習了 mdp，檢視一些資料，本文翻譯了維基百科有許多地方翻譯的不好，有翻譯錯的地方請多多諒解！歡迎給我留下意見，我會盡快更改！值得注意的變種值迭代在值迭代貝爾曼 1957 年中，也被稱為逆向歸納法，陣列是不被使用的，而是當需要時就計算 s 的值。代入 s 的計算結果到 v s 得到...

馬爾可夫決策過程 MDP
但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是，馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...

work 馬爾可夫決策過程MDP
1.馬爾可夫模型的幾類子模型大家應該還記得馬爾科夫鏈 markov chain 了解機器學習的也都知道隱馬爾可夫模型 hidden markov model，hmm 它們具有的乙個共同性質就是馬爾可夫性無後效性也就是指系統的下個狀態只與當前狀態資訊有關，而與更早之前的狀態無關。馬爾可夫決策過程...

給西瓜澆水問題的馬爾可夫決策過程理解

馬爾可夫決策過程（四）

馬爾可夫決策過程 MDP

work 馬爾可夫決策過程MDP

相關推薦