強化學習 學習筆記1

2021-10-25 01:16:18 字數 2767 閱讀 1282

基本任務:

agent如何在複雜不確定的環境中極大化所獲得的的獎勵。

基本概念:

action: environment接收到的agent當前狀態的輸出。

state:agent從environment中獲取到的狀態。

reward:agent從environment中獲取的反饋訊號,這個訊號指定了agent在某一步採取了某個策略以後是否得到獎勵。

exploration:在當前的情況下,繼續嘗試新的action,其有可能會使你得到更高的這個獎勵,也有可能使你一無所有。

exploitation:在當前的情況下,繼續嘗試已知的可以獲得最大reward的過程,即重複執行這個 action 就可以了。

深度強化學習(deep reinforcement learning):不需要手工設計特徵,僅需要輸入state讓系統直接輸出action的乙個end-to-end training的強化學習方法。通常使用神經網路來擬合 value function 或者 policy network。

policy: 決定了這agent 的行為,它其實是乙個函式,把輸入的狀態變成行為。兩種policy:

action spaces(動作空間):不同的環境允許不同種類的動作。在給定的環境中,有效動作的集合經常被稱為動作空間(action space)。像 atari 和 go 這樣的環境有離散動作空間(discrete action spaces),在這個動作空間裡,agent 的動作數量是有限的。在其他環境,比如在物理世界中控制乙個 agent,在這個環境中就有連續動作空間(continuous action spaces) 。在連續空間中,動作是實值的向量。

value function:價值函式是未來獎勵的乙個**,用來評估狀態的好壞。

model(模型):模型決定了下乙個狀態會是什麼樣的,就是說下一步的狀態取決於你當前的狀態以及你當前採取的行為。它由兩個部分組成,乙個是 probability,它這個轉移狀態之間是怎麼轉移的。另外是這個獎勵函式,當你在當前狀態採取了某乙個行為,可以得到多大的獎勵

valued-based(基於價值的):agent不需要制定顯式的策略,它維護乙個價值**或價值函式,並通過這個價值**或價值函式來選取價值最大的動作。

model-based(有模型結構):agent通過學習狀態的轉移來採取措施。

model-free(無模型結構):agent沒有去直接估計狀態的轉移,也沒有得到environment的具體轉移變數。它通過學習 value function 和 policy function 進行決策。

強化學習與監督學習對比:

1、強化學習是一種序列資料;

2、learner未知那種行為是正確的;

3、agent 獲得自己能力的過程中,其實是通過不斷地試錯(trial-and-error exploration);

4、在強化學習過程中,沒有非常強的 supervisor,只有乙個獎勵訊號(reward signal)

強化學習的基本特徵

1、有不斷試錯(trial-and-error exploration)的過程,即需要通過探索environment來獲取對這個environment的理解。

2、強化學習的agent會從environment裡面獲得延遲的reward。

3、強化學習的訓練過程中時間非常重要,因為資料都是有時間關聯的,而不是像監督學習一樣是iid分布的。

4、強化學習中agent的action會影響它隨後得到的反饋。

狀態(state)

是對世界的完整描述,不會隱藏世界的資訊。

觀測(observation)

是對狀態的部分描述,可能會遺漏一些資訊。在深度強化學習中,我們幾乎總是用乙個實值向量、矩陣或者更高階的張量來表示狀態和觀測。

分類

根據強化學習 agent 的不同,我們可以把 agent 進行歸類:

1、基於價值函式的 agent。這一類 agent 顯式地學習的是價值函式,隱式地學習了它的策略。因為這個策略是從我們學到的價值函式裡面推算出來的。

2、基於策略的 agent,它直接去學習 policy,就是說你直接給它乙個 state,它就會輸出這個動作的概率。在這個 policy-based agent 裡面並沒有去學習它的價值函式。

3、把 value-based 和 policy-based 結合起來就有了 actor-critic agent。這一類 agent 就把它的策略函式和價值函式都學習了,然後通過兩者的互動得到乙個最佳的行為。

model-based和model-free的區別

針對是否需要對真實環境建模,強化學習可以分為有模型學習和免模型學習。 有模型學習是指根據環境中的經驗,構建乙個虛擬世界,同時在真實環境和虛擬世界中學習;免模型學習是指不對環境進行建模,直接與真實環境進行互動來學習到最優策略。總的來說,有模型學習相比於免模型學習僅僅多出乙個步驟,即對真實環境進行建模。免模型學習通常屬於資料驅動型方法,需要大量的取樣來估計狀態、動作及獎勵函式,從而優化動作策略。免模型學習的泛化性要優於有模型學習,原因是有模型學習算需要對真實環境進行建模,並且虛擬世界與真實環境之間可能還有差異,這限制了有模型學習演算法的泛化性。

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

強化學習1 什麼是強化學習

強化學習 reinforcement learning,rl 一般也稱作增強學習,和心理學 動物行為的研究等領域有比較久的淵源。心理學中,強化 指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時 比方說猴子 訓導員首先會發出某種指令 比方說抬一下手...

強化學習1

這是第一篇強化學習的學習筆記,會覆蓋幾個基本的概念。程式本身,接受環境的訊號,作出行動,影響環境,形成乙個閉環。價值函式,通過value來評估哪一些狀態和動作是好的,選擇那些能夠提高value的動作和狀態。動作,當agent觀察到環境的狀態後,可以作出一些行動去影響環境,比如自動駕駛的汽車看到路面的...