強化學習 MDP 馬爾可夫決策過程 演算法原理

2022-07-04 05:57:10 字數 1676 閱讀 1478

前面的強化學習基礎知識介紹了強化學習中的一些基本元素和整體概念。今天講解強化學習裡面最最基礎的mdp(馬爾可夫決策過程)。

mdp是當前強化學習理論推導的基石,通過這套框架,強化學習的互動流程可以很好地以概率論的形式表示出來,解決強化學習問題的關鍵定理也可以依此表示出來。

mdp(馬爾可夫決策過程)包含以下三層含義:

「馬爾可夫」表示了狀態間的依賴性。當前狀態的取值只和前乙個狀態產生依賴,不和更早的狀態產生聯絡。雖然這個條件在有些問題上有些理想,但是由於它極大地簡化了問題,所以人們通常會選擇使用它。

「決策」表示了其中的策略部分將由agent決定。agent可以通過自己的行動改變狀態序列,和環境中存在的隨機性共同決定未來的狀態。

「過程」表示了時間的屬性。如果把agent和環境的互動按時間維度展開,那麼agent行動後,環境的狀態將發生改變,同時時間向前推進,新的狀態產生,agent將獲得觀測值,於是新的行動產生,然後狀態再更新」

前面介紹了mdp的基本形式,我們發現遊戲的關鍵在於策略(policy),也就是如何做出決策與執行行動。在理想狀態下,每乙個行動都要為最終的目標——最大化長期回報努力,那麼理論上只要能夠找到一種方法,量化每乙個行動對實現最終目標貢獻的價值,這個方式就是用價值函式(簡稱值函式)來衡量。

值函式分兩類:

其中的\(\pi\)是乙個行動策略。

我們從下圖中來學習狀態值函式:

我們計算左邊的\(s^0\)狀態的\(v(s^0)\),我們可以通過它後面的\(r_^}+s^1_\)加權的和,其中\(r_^}\)是採取行動\(a_i\)後獲得的獎勵。

所以有狀態值函式的bellman公式:

\[v_(s_t)=\sum_\pi(a_t|s_t)\sum_}p(s_|s_t,a_t)[r_^} + \gamma * v_(s_)]\;\;\;\;\;\;(1)

\]通過這樣的計算,我們發現狀態值函式可以以遞迴的形式表示。假設值函式已經穩定,任意乙個狀態的價值可以由其他狀態的價值得到。

和狀態值函式的推到一樣,我們有下面這張狀態-行動值函式,它是以\(q(s,a)\)為目標來計算值函式。

同樣和狀態值函式一樣,狀態-行動值函式也有相應的bellman公式:

\[q_(s_t,a_t)=\sum_}p(s_|s_t,a_t)[r_^} + \gamma * \sum_}\pi(a_|s_)q_(s_,a_)]\;\;\;\;\;\;(2)

\]這個公式和上面的狀態值函式的非常類似。

以上\((1)(2)\)個bellman公式是mdp中最核心的內容,後面的各種強化學習的演算法也是建立在上面2個bellman公式之上。

通過\((1)(2)\),我們還能推導出\(v_(s_t),q_(s_t,a_t)\)之間的關係。

\[v_(s_t)=\sum_\pi(a_t|s_t)q_(s_t,a_t)\;\;\;\;\;\;(3)

\]\[q_(s_t,a_t)=\sum_}p(s_|s_t,a_t)[r_^} + \gamma * v_(s_)]\;\;\;\;\;\;(4)

\]其實\((3)(4)\)也可以通過上面2幅圖得到驗證。

mdp是強化學習入門的關鍵一步,如果這部分研究的比較清楚,後面的學習就會容易很多。因此值得多些時間在這裡。雖然mdp可以直接用方程組來直接求解簡單的問題,但是更複雜的問題卻沒有辦法求解,因此我們還需要尋找其他有效的求解強化學習的方法。

《強化學習》馬爾可夫決策過程MDP

狀態自動機 mdp和nfa唯一相似的地方就是它們都有狀態轉移,拋掉這一點兩者就八竿子打不著了。我們用貝爾曼期望方程求解在某個給定策略 和環境env下的價值函式 具體解法是 下面是對於v s 的解法 從而對於每乙個特定的 都能得到其對應的價值函式。所以我們可以有一組的 但是我們解決問題的目標是拿到最優...

強化學習 馬爾可夫決策過程

參考 推薦 一 馬爾可夫性 agent與environment的互動過程可以表示為乙個序列 馬爾可夫性 下乙個狀態的產生只和上乙個狀態有關,而與更之前的狀態無關。即 p left s s 1,s 2,s t right p left s s t right 這個條件雖然在某些問題上有些理想,但是極大...

馬爾可夫決策過程 MDP

但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...