強化學習的基本概念

2021-09-01 18:14:20 字數 2538 閱讀 4125

mdp:markov decission process 馬爾可夫決策流程

代表了強化學習要解決的問題。有幾個構成:

1)一組(有限的)狀態s(s0,

s1,s

2,..

.,st

,st+

1...

s_0,s_1,s_2,...,s_t,s_...

s0​,s1

​,s2

​,..

.,st

​,st

+1​.

..),階段性任務的狀態集合記作s

+s^+

s+。2)一組(有限的)動作a(a0,

a1,a

2,..

.,at

,at+

1...

a_0,a_1,a_2,...,a_t,a_...

a0​,a1

​,a2

​,..

.,at

​,at

+1​.

..)3)一組獎勵r(r1,

r2,.

..,r

t,rt

+1..

.r_1,r_2,...,r_t,r_...

r1​,r2

​,..

.,rt

​,rt

+1​.

..)。智慧型**每個時間步的目標都是使累計獎勵(t時間步的(預期)累計獎勵用g

tg_t

gt​表示,英文為return)最大化。

4)一步動態特性,或稱狀態轉移概率p

$p(s』,r|s,a) = p(s_=s』,r_=r|s_t=s,a_t=a)

解釋:當任一時間步t的狀態為s,智慧型**執行動作a時,狀態轉移到s』,環境給智慧型體獎勵r的概率。

5)折扣率 γ∈[

0,1]

\gamma∈[0,1]

γ∈[0,1

]作為未來每個時間步獎勵的係數,控制著智慧型**在眼前利益和長遠利益間的平衡取捨。例如,當前時間步為t,則t時間步的(預期)累計獎勵為:

g t=

rt+γ

∗rt+

1+γ2

∗rt+

2+..

.+rn

∗rt+

ng_t=r_t + \gamma *r_ + \gamma ^2 * r_ +...+r^n * r_

gt​=rt

​+γ∗

rt+1

​+γ2

∗rt+

2​+.

..+r

n∗rt

+n​式中γ

\gamma

γ 越大,智慧型**越重視長遠利益;γ

\gamma

γ越小,越重視眼前利益。

極端情況:當 γ=0

\gamma = 0

γ=0時,智慧型**只在乎眼前利益;當 γ=1

\gamma = 1

γ=1時,未來獎勵不打折。

階段性任務與連續性任務

階段性任務即任務有明確的結束標誌:如下棋,分出勝負即為結束

連續性任務即任務沒有明確的結束標誌:如**交易。

稀疏獎勵

對於階段性任務,智慧型體只在任務結束時才能接收到獎勵訊號,則為稀疏獎勵。

策略狀態s到動作a的對映關係,決定了智慧型**如何根據當前狀態選擇動作,分為確定策略和隨機策略。確定策略指在某個狀態下,一定會採取某個動作;隨機策略指在某個狀態下,採取某個動作的概率是p(0π

\piπ表示。

狀態值函式

該函式計算的是:對於每個狀態s,若智慧型**從該狀態出發,並在所有時間步都按照策略π

\piπ選擇動作,預期的累計獎勵g。

v π(

s)=e

π[gt

∣st=

s]

v_\pi(s) = e_\pi[g_t|s_t=s]

vπ​(s)

=eπ​

[gt​

∣st​

=s]狀態值函式與策略是對應的,策略變,狀態值函式變。

動作值函式

該函式計算的是:對於每個狀態s,若智慧型**從該狀態出發,並採取動作a,且在所有時間步都按照策略π

\piπ選擇動作,預期的累計獎勵g。

q π(

s,a)

=eπ[

gt∣s

t=s,

at=a

]q_\pi(s,a) = e_\pi[g_t|s_t=s,a_t=a]

qπ​(s,

a)=e

π​[g

t​∣s

t​=s

,at​

=a]使得動作值函式最大的策略為最優策略,最優動作值函式記作q

∗q^*

q∗。貝爾曼方程

貝爾曼方程有兩組:貝爾曼預期方程貝爾曼最優性方程。每組方程包含兩個方程,對應於狀態值或動作值。

所有貝爾曼方程對有限馬爾可夫決策流程 (mdp) 來說都非常有用。詳細內容將另寫一篇記載。

強化學習基本概念

value based 或q learning 和policy based 或policy gradients 是強化學習中最重要的兩類方法,區別在於 value based是 某個state下所有action的期望價值 q值 之後通過選擇最大q值對應的action執行策略,適合僅有少量離散取值的a...

強化學習基本概念

rl演算法種類 強化學習方法 相關概念 對於機器 先採取動作再接受環境的狀態和獎勵 對於環境 接受機器的動作,做出下乙個的狀態和獎勵 s0當前的狀態,a0當前的動作,r1當前的獎勵 馬爾科夫決策下一刻的狀態只和當前狀態有關,和之前無關 強化學習的目標使rt最大化 1.每一時刻加起來的r e.p.人一...

強化學習的幾個基本概念

指 機器已對環境進行了建模,能在機器內部模擬出與環境相同或近似的狀況 此時,任意狀態x下執行動作a轉移到x 的概率p是已知的,該轉移帶來的獎賞r也是已知的 model based的問題可以用傳統的強化學習方法來解決,比如動態規劃,可以用bellman等式求得數值解 指 由於實際中沒法對環境進行建模,...