深度增強學習入門筆記(一)

2021-08-13 13:28:50 字數 2113 閱讀 4339

知乎專欄智慧型單元的學習筆記,僅為自己學習所用,侵刪。

openai的三個主要研究方向

1. 深度生成模型 deep generative model

通過學習現有的資料生成新的資料。

相關研究:

1)otoro.net 學習文字自動生成新的文字

2)deep dream neural art 畫風遷移

3)sequence to sequence learning 從序列到序列的學習 輸入英文,輸出中文;輸入文字,輸出手寫字型等。

4) deep generative adversarial network s深度生成對抗網路以及衍生而來的 dcgan 深度卷積生成對抗網路

5)one shot learning 看一眼影象衍生出其變種,快速感知

2 . 神經圖靈機 neural turing machine

讓計算機能夠學習程式,從而具備推理能力。

相關研究:

iclr 2016 neural programmer-interpreters 通過神經網路解釋程式

3 . 深度增強學習 deep reinforcement learning

使用增強學習實現自學習能力。

openai gym openai的增強學習平台

agent 智慧型體 具備行為能力的物體

state 狀態 觀察observation的集合

action 動作

reward 反饋值

state->action稱為policy 策略

state:s,action:a,policy:π

我們需要找到下列關係(一一對應或者是概率表示): a=

π(s)

或者 π(

a|s)

增強學習的任務是找到乙個最優的policy策略使得reward反饋值最多。

大多數人工智慧研究,包括增強學習的基礎

世界的時間是可以被切分的,且有嚴格的先後順序。

上帝不擲骰子,增強學習的輸入確定,輸出也確定。

馬爾科夫決策過程mdp

mdp基於未來只基於現在的假設,即下乙個狀態僅取決於當前的狀態和當前的動作。

乙個狀態st

是markov當且僅當 p(

st+1

|st)

=p(s

t+1|

st,s

t−1,

...s

1,s0

) 這裡的狀態是上帝視角的狀態。

增強學習的問題都可以模型化為mdp的問題。

乙個基本的mdp可以用(s,a,p)來表示:

s :狀態

a:動作

p:狀態轉移概率,根據當前的狀態st

和at 轉移到st

+1的概率。如果我們知道了轉移概率p,也就是稱為我們獲得了模型model,有了模型,未來就可以求解,那麼獲取最優的動作也就有可能,這種通過模型來獲取最優動作的方法也就稱為model-based的方法。但是現實情況下,很多問題是很難得到準確的模型的,因此就有model-free的方法來尋找最優的動作。

基於mdp,每個狀態都可以用乙個確定的值來表示,所以就可以判斷好壞。狀態的好壞等價於對未來回報的期望。

設回報return為某個時間t時的狀態所將具備的回報。 gt

=rt+

1+λr

t+2+

……=∑

k=0∞

λkrt

+k+1

r: reward反饋值

λ:discount factor折扣因子,一般小於1,就是說一般當下的反饋是比較重要的,時間越久,影響越小。

注意這是某乙個時刻t的狀態所將具備的回報,所以要等整個過程走完,才能算出所有的回報(k是到正無窮的),引出乙個概念 價值函式 value function來解決這個問題,價值函式表示乙個狀態未來的潛在價值,公式:

回到增強學習的目標—-找到乙個最優的policy使得reward最多上來,所以有以下三種方法可以找到最優的policy:

1. 直接優化策略π(

a|s)

或者a=

π(s)

深度增強學習入門筆記(二)

知乎專欄智慧型單元的學習筆記,就真的只是一邊看一邊記的而已,僅為自己學習所用,侵刪。是增強學習領域最重要的乙個方程。使用價值函式進行決策就需要計算這個函式,那怎麼計算呢?bellman方程。簡而言之,bellman方程的作用 表明價值函式是可以迭代進行計算的。將價值函式的公式 a 表示,s代表狀態,...

深度學習入門筆記

之前研討會各種聽老闆和師兄談論deep learning的話題,自己也就聽一聽,這段時間出於了解 的目的仔細研究了一下,感覺內部挺複雜的,不過若只是需要了解原理,其實還比較簡單。深度學習與以往的機器學習方法不同之處在於,它並非是乙個具體的方法或者系統,而僅僅只是乙個理論體系,假設我們有乙個系統s,它...

深度學習筆記(31) 遷移與增強

舉個例子,假如說要建立乙個貓咪檢測器,用來檢測寵物貓 假如兩隻貓叫tigger和misty,還有一種情況是,兩者都不是 所以現在有乙個三分類問題,裡是tigger還是misty,或者都不是 忽略兩隻貓同時出現在一張裡的情況 舉個例子,imagenet資料集,它有1000個不同的類別 因此這個網路會有...