增強學習（二）馬爾可夫決策過程MDP

增強學習（二）----- 馬爾可夫決策過程mdp

1. 馬爾可夫模型的幾類子模型

大家應該還記得馬爾科夫鏈(markov chain)，了解機器學習的也都知道隱馬爾可夫模型(hidden markov model，hmm)。它們具有的乙個共同性質就是馬爾可夫性(無後效性)，也就是指系統的下個狀態只與當前狀態資訊有關，而與更早之前的狀態無關。

馬爾可夫決策過程(markov decision process, mdp)也具有馬爾可夫性，與上面不同的是mdp考慮了動作，即系統下個狀態不僅和當前的狀態有關，也和當前採取的動作有關。還是舉下棋的例子，當我們在某個局面（狀態s）走了一步(動作a)，這時對手的選擇（導致下個狀態s』）我們是不能確定的，但是他的選擇只和s和a有關，而不用考慮更早之前的狀態和動作，即s』是根據s和a隨機生成的。

我們用乙個二維**表示一下，各種馬爾可夫子模型的關係就很清楚了：

不考慮動作

考慮動作

狀態完全可見

馬爾科夫鏈(mc)

馬爾可夫決策過程(mdp)

狀態不完全可見

隱馬爾可夫模型(hmm)

不完全可觀察馬爾可夫決策過程(pomdp)

2. 馬爾可夫決策過程

乙個馬爾可夫決策過程由乙個四元組構成m = (s, a, psa,

增強學習（二）馬爾可夫決策過程MDP

馬爾可夫決策過程（四）

馬爾可夫決策過程 MDP

強化學習馬爾可夫決策過程

增強學習（二） 馬爾可夫決策過程MDP

馬爾可夫決策過程（四）

馬爾可夫決策過程 MDP

強化學習 馬爾可夫決策過程

相關推薦

增強學習（二）馬爾可夫決策過程MDP

強化學習馬爾可夫決策過程