強化學習筆記之Critic(三)

2021-10-05 00:08:39 字數 1050 閱讀 8097

前面介紹了actor的策略,接下來介紹critic。

critic就是乙個神經網路,以狀態s為輸入,以期望的reward為輸出。

在前面介紹actor時,我們定義的用來更新θ的

▽ rˉ

θ=∑τ

r(τ)

▽pθ(

τ)

\********down\bar r_\theta=\sum_\tau r(\tau)\********down p_\theta(\tau)

▽rˉθ​=

τ∑​r

(τ)▽

pθ​(

τ)這其中r(τ

)r(\tau)

r(τ)

是machine與環境互動所獲得的實際reward,這就導致具有很大的不確定性。因為machine採取什麼樣的動作是一種概率性的行為,而同乙個動作,環境給予什麼樣的reward也是具有隨機性的,這樣將會導致machine的學習效率比較低下,就像沒頭蒼蠅亂撞,可能學習很久都找不到正確的方向。所以我們要給machine乙個正確的方向,即使用它的期望值代替實際的reward,期望值是可以被估算、計算的,這樣就有利於我們去設計特定的函式來估算、計算期望的reward,從而引導我們的machine去做出我們想要的action。

critic是只計算期望的reward,並不會根據這個reward選擇action,而q-learning則會根據估算出來的reward選擇最大的那個reward對應的action。

value-based是根據計算出來的期望reward,選擇最大的期望reward所對應的action。典型代表q-learning。

policy-based是將計算出來的期望reward當作選擇action的概率,期望的reward越大,對應的action被選中的概率也就越大,但不一定就會被選中,只是概率。典型代表policy gradient。

非常簡單,直接使用乙個神經網路,以狀態s為輸入,value為輸出即可。

使用critic輸出的value代替r(τ

)r(\tau)

r(τ)

,具體公式如下圖,這就是a2c策略。

強化學習筆記之gradient ascent(二)

一般而言,actor的策略就是gradient ascent actor和environment reward的關係如下 在乙個回合episode中,這些state和action組成一條軌跡 trajectory textbf space tau lbrace s 1,a 1,s 2,a 2,dot...

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...