強化學習學習筆記1

基本任務：

agent如何在複雜不確定的環境中極大化所獲得的的獎勵。

基本概念：

action: environment接收到的agent當前狀態的輸出。

state：agent從environment中獲取到的狀態。

reward：agent從environment中獲取的反饋訊號，這個訊號指定了agent在某一步採取了某個策略以後是否得到獎勵。

exploration：在當前的情況下，繼續嘗試新的action，其有可能會使你得到更高的這個獎勵，也有可能使你一無所有。

exploitation：在當前的情況下，繼續嘗試已知的可以獲得最大reward的過程，即重複執行這個 action 就可以了。

深度強化學習（deep reinforcement learning）：不需要手工設計特徵，僅需要輸入state讓系統直接輸出action的乙個end-to-end training的強化學習方法。通常使用神經網路來擬合 value function 或者 policy network。

policy：決定了這agent 的行為，它其實是乙個函式，把輸入的狀態變成行為。兩種policy：

action spaces（動作空間）：不同的環境允許不同種類的動作。在給定的環境中，有效動作的集合經常被稱為動作空間(action space)。像 atari 和 go 這樣的環境有離散動作空間(discrete action spaces)，在這個動作空間裡，agent 的動作數量是有限的。在其他環境，比如在物理世界中控制乙個 agent，在這個環境中就有連續動作空間(continuous action spaces) 。在連續空間中，動作是實值的向量。

value function：價值函式是未來獎勵的乙個**，用來評估狀態的好壞。

model（模型）：模型決定了下乙個狀態會是什麼樣的，就是說下一步的狀態取決於你當前的狀態以及你當前採取的行為。它由兩個部分組成，乙個是 probability，它這個轉移狀態之間是怎麼轉移的。另外是這個獎勵函式，當你在當前狀態採取了某乙個行為，可以得到多大的獎勵

valued-based（基於價值的）：agent不需要制定顯式的策略，它維護乙個價值**或價值函式，並通過這個價值**或價值函式來選取價值最大的動作。

model-based（有模型結構）：agent通過學習狀態的轉移來採取措施。

model-free（無模型結構）：agent沒有去直接估計狀態的轉移，也沒有得到environment的具體轉移變數。它通過學習 value function 和 policy function 進行決策。

強化學習與監督學習對比：

1、強化學習是一種序列資料；

2、learner未知那種行為是正確的；

3、agent 獲得自己能力的過程中，其實是通過不斷地試錯(trial-and-error exploration)；

4、在強化學習過程中，沒有非常強的 supervisor，只有乙個獎勵訊號(reward signal)

強化學習的基本特徵

1、有不斷試錯（trial-and-error exploration）的過程，即需要通過探索environment來獲取對這個environment的理解。

2、強化學習的agent會從environment裡面獲得延遲的reward。

3、強化學習的訓練過程中時間非常重要，因為資料都是有時間關聯的，而不是像監督學習一樣是iid分布的。

4、強化學習中agent的action會影響它隨後得到的反饋。

狀態（state）

是對世界的完整描述，不會隱藏世界的資訊。

觀測（observation）

是對狀態的部分描述，可能會遺漏一些資訊。在深度強化學習中，我們幾乎總是用乙個實值向量、矩陣或者更高階的張量來表示狀態和觀測。

分類

根據強化學習 agent 的不同，我們可以把 agent 進行歸類：

1、基於價值函式的 agent。這一類 agent 顯式地學習的是價值函式，隱式地學習了它的策略。因為這個策略是從我們學到的價值函式裡面推算出來的。

2、基於策略的 agent，它直接去學習 policy，就是說你直接給它乙個 state，它就會輸出這個動作的概率。在這個 policy-based agent 裡面並沒有去學習它的價值函式。

3、把 value-based 和 policy-based 結合起來就有了 actor-critic agent。這一類 agent 就把它的策略函式和價值函式都學習了，然後通過兩者的互動得到乙個最佳的行為。

model-based和model-free的區別

針對是否需要對真實環境建模，強化學習可以分為有模型學習和免模型學習。有模型學習是指根據環境中的經驗，構建乙個虛擬世界，同時在真實環境和虛擬世界中學習；免模型學習是指不對環境進行建模，直接與真實環境進行互動來學習到最優策略。總的來說，有模型學習相比於免模型學習僅僅多出乙個步驟，即對真實環境進行建模。免模型學習通常屬於資料驅動型方法，需要大量的取樣來估計狀態、動作及獎勵函式，從而優化動作策略。免模型學習的泛化性要優於有模型學習，原因是有模型學習算需要對真實環境進行建模，並且虛擬世界與真實環境之間可能還有差異，這限制了有模型學習演算法的泛化性。

強化學習學習筆記1

強化學習系列1 強化學習簡介

強化學習1 什麼是強化學習

強化學習1

強化學習 學習筆記1

強化學習系列1 強化學習簡介

強化學習1 什麼是強化學習

強化學習1

相關推薦

強化學習學習筆記1