增強學習(二) 馬爾可夫決策過程MDP

2021-08-23 14:13:30 字數 638 閱讀 2640

增強學習(二)----- 馬爾可夫決策過程mdp

1. 馬爾可夫模型的幾類子模型

大家應該還記得馬爾科夫鏈(markov chain),了解機器學習的也都知道隱馬爾可夫模型(hidden markov model,hmm)。它們具有的乙個共同性質就是馬爾可夫性(無後效性),也就是指系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關。

馬爾可夫決策過程(markov decision process, mdp)也具有馬爾可夫性,與上面不同的是mdp考慮了動作,即系統下個狀態不僅和當前的狀態有關,也和當前採取的動作有關。還是舉下棋的例子,當我們在某個局面(狀態s)走了一步(動作a),這時對手的選擇(導致下個狀態s』)我們是不能確定的,但是他的選擇只和s和a有關,而不用考慮更早之前的狀態和動作,即s』是根據s和a隨機生成的。

我們用乙個二維**表示一下,各種馬爾可夫子模型的關係就很清楚了:

不考慮動作

考慮動作

狀態完全可見

馬爾科夫鏈(mc)

馬爾可夫決策過程(mdp)

狀態不完全可見

隱馬爾可夫模型(hmm)

不完全可觀察馬爾可夫決策過程(pomdp)

2. 馬爾可夫決策過程

乙個馬爾可夫決策過程由乙個四元組構成m = (s, a, psa,

馬爾可夫決策過程(四)

最近學習了 mdp,檢視一些資料,本文翻譯了維基百科 有許多地方翻譯的不好,有翻譯錯的地方請多多諒解!歡迎給我留下意見,我會盡快更改!值得注意的變種 值迭代 在值迭代 貝爾曼 1957 年 中,也被稱為 逆向歸納法,陣列是不被使用的,而是當需要時就計算 s 的值。代入 s 的計算結果到 v s 得到...

馬爾可夫決策過程 MDP

但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...

強化學習 馬爾可夫決策過程

參考 推薦 一 馬爾可夫性 agent與environment的互動過程可以表示為乙個序列 馬爾可夫性 下乙個狀態的產生只和上乙個狀態有關,而與更之前的狀態無關。即 p left s s 1,s 2,s t right p left s s t right 這個條件雖然在某些問題上有些理想,但是極大...