強化學習筆記之Critic（三）

前面介紹了actor的策略，接下來介紹critic。

critic就是乙個神經網路，以狀態s為輸入，以期望的reward為輸出。

在前面介紹actor時，我們定義的用來更新θ的

▽ rˉ

θ=∑τ

r(τ)

▽pθ(

τ)

\********down\bar r_\theta=\sum_\tau r(\tau)\********down p_\theta(\tau)

▽rˉθ=

τ∑r

(τ)▽

pθ(

τ)這其中r(τ

)r(\tau)

r(τ)

是machine與環境互動所獲得的實際reward，這就導致具有很大的不確定性。因為machine採取什麼樣的動作是一種概率性的行為，而同乙個動作，環境給予什麼樣的reward也是具有隨機性的，這樣將會導致machine的學習效率比較低下，就像沒頭蒼蠅亂撞，可能學習很久都找不到正確的方向。所以我們要給machine乙個正確的方向，即使用它的期望值代替實際的reward，期望值是可以被估算、計算的，這樣就有利於我們去設計特定的函式來估算、計算期望的reward，從而引導我們的machine去做出我們想要的action。

critic是只計算期望的reward，並不會根據這個reward選擇action，而q-learning則會根據估算出來的reward選擇最大的那個reward對應的action。

value-based是根據計算出來的期望reward，選擇最大的期望reward所對應的action。典型代表q-learning。

policy-based是將計算出來的期望reward當作選擇action的概率，期望的reward越大，對應的action被選中的概率也就越大，但不一定就會被選中，只是概率。典型代表policy gradient。

非常簡單，直接使用乙個神經網路，以狀態s為輸入，value為輸出即可。

使用critic輸出的value代替r(τ

)r(\tau)

r(τ)

，具體公式如下圖，這就是a2c策略。

強化學習筆記之Critic（三）

強化學習筆記之gradient ascent（二）

強化學習筆記

強化學習筆記

相關推薦