馬爾科夫過程，馬爾科夫獎勵過程和馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的乙個基本框架，用來表示agent與環境的互動過程：agent觀測得到環境的當前狀態之後，採取動作，環境進入下乙個狀態，agent又得到下乙個環境狀態的資訊，形成乙個迴圈迴路。

在理解馬爾科夫決策過程之前，首先要理解馬爾科夫、馬爾科夫獎勵過程。

1. 馬爾科夫過程

滿足馬爾科夫性質的狀態轉換過程是馬爾科夫過程；

什麼是馬爾科夫性質呢？

在環境狀態的轉換過程中，環境的下乙個狀態只取決於當前狀態，和歷史狀態無關，即滿足馬爾科夫性質。

2. 馬爾科夫獎勵過程

（1）馬爾科夫鏈可以通過轉移圖和轉移矩陣這兩種形式表示：

轉移圖

轉移矩陣

（2）馬爾科夫獎勵過程：馬爾科夫鏈加上獎勵函式（價值函式）

（3）馬爾科夫獎勵過程需要重點研究的是如何求解狀態空間裡每個狀態的獎勵函式？

獎勵：馬爾科夫獎勵過程中，每次到達乙個過程，會得到乙個獎勵，這個獎勵是已知的。

return（回報）？當前狀態之後的未來狀態獲取獎勵（乘上折扣率）的累加值。這裡計算的是乙個特定的軌跡的return

獎勵函式：某個狀態的獎勵函式得到的是該狀態的價值：return的期望

問題：每個狀態都有乙個特定獎勵函式嗎？獎勵函式的值等於價值，每個狀態都有乙個價值

bellman equation（貝爾曼等式）：獎勵函式的另一種計算方法

動態規劃的方法（基於貝爾曼等式）

求解獎勵函式方法2：蒙特卡羅(monte carlo)方法（基於取樣求return期望）

具體地，例如：以狀態s1為起始狀態，可能接下來的狀態轉換軌跡是（s3、s4、s6），也可能是（s2、s3、s5）等等，總之可以通過產生大量的軌跡，每個軌跡都會得到乙個 return，然後直接取乙個平均，那麼就可以等價於現在s1的價值。

3. 馬爾科夫決策過程

在馬爾科夫獎勵過程中加入動作和策略，即是馬爾科夫決策過程，策略是當前狀態下採取某動作的概率。

狀態價值函式：和馬爾科夫獎勵過程的價值函式類似

q函式-動作價值函式：某乙個狀態採取某乙個動作，得到乙個return的期望

狀態價值函式（價值函式）與動作價值函式的關係：對 q 函式中的動作函式進行加和，就可以得到價值函式（狀態價值函式）

狀態價值函式的貝爾曼等式：

動作價值函式的貝爾曼等式：