深度增強學習入門筆記（一）

知乎專欄智慧型單元的學習筆記，僅為自己學習所用，侵刪。

openai的三個主要研究方向

1. 深度生成模型 deep generative model

通過學習現有的資料生成新的資料。

相關研究：

1）otoro.net 學習文字自動生成新的文字

2）deep dream neural art 畫風遷移

3）sequence to sequence learning 從序列到序列的學習輸入英文，輸出中文；輸入文字，輸出手寫字型等。

4） deep generative adversarial network s深度生成對抗網路以及衍生而來的 dcgan 深度卷積生成對抗網路

5）one shot learning 看一眼影象衍生出其變種，快速感知

2 . 神經圖靈機 neural turing machine

讓計算機能夠學習程式，從而具備推理能力。

相關研究：

iclr 2016 neural programmer-interpreters 通過神經網路解釋程式

3 . 深度增強學習 deep reinforcement learning

使用增強學習實現自學習能力。

openai gym openai的增強學習平台

agent 智慧型體具備行為能力的物體

state 狀態觀察observation的集合

action 動作

reward 反饋值

state->action稱為policy 策略

state:s,action:a,policy:π

我們需要找到下列關係(一一對應或者是概率表示）： a=

π(s)

或者 π(

a|s)

增強學習的任務是找到乙個最優的policy策略使得reward反饋值最多。

大多數人工智慧研究，包括增強學習的基礎

世界的時間是可以被切分的，且有嚴格的先後順序。

上帝不擲骰子，增強學習的輸入確定，輸出也確定。

馬爾科夫決策過程mdp

mdp基於未來只基於現在的假設，即下乙個狀態僅取決於當前的狀態和當前的動作。

乙個狀態st

是markov當且僅當 p(

st+1

|st)

=p(s

t+1|

st,s

t−1,

...s

1,s0

) 這裡的狀態是上帝視角的狀態。

增強學習的問題都可以模型化為mdp的問題。

乙個基本的mdp可以用（s,a,p）來表示：

s ：狀態

a：動作

p：狀態轉移概率，根據當前的狀態st

和at 轉移到st

+1的概率。如果我們知道了轉移概率p，也就是稱為我們獲得了模型model，有了模型，未來就可以求解，那麼獲取最優的動作也就有可能，這種通過模型來獲取最優動作的方法也就稱為model-based的方法。但是現實情況下，很多問題是很難得到準確的模型的，因此就有model-free的方法來尋找最優的動作。

基於mdp，每個狀態都可以用乙個確定的值來表示，所以就可以判斷好壞。狀態的好壞等價於對未來回報的期望。

設回報return為某個時間t時的狀態所將具備的回報。 gt

=rt+

1+λr

t+2+

……=∑

k=0∞

λkrt

+k+1

r： reward反饋值

λ：discount factor折扣因子，一般小於1，就是說一般當下的反饋是比較重要的，時間越久，影響越小。

注意這是某乙個時刻t的狀態所將具備的回報，所以要等整個過程走完，才能算出所有的回報（k是到正無窮的），引出乙個概念價值函式 value function來解決這個問題，價值函式表示乙個狀態未來的潛在價值,公式：

回到增強學習的目標—-找到乙個最優的policy使得reward最多上來，所以有以下三種方法可以找到最優的policy：

1. 直接優化策略π(

a|s)

或者a=

π(s)

深度增強學習入門筆記（一）

深度增強學習入門筆記（二）

深度學習入門筆記

深度學習筆記（31）遷移與增強

深度增強學習入門筆記（一）

深度增強學習入門筆記（二）

深度學習入門筆記

深度學習筆記（31） 遷移與增強

相關推薦

深度學習筆記（31）遷移與增強