知乎專欄智慧型單元的學習筆記,僅為自己學習所用,侵刪。
openai的三個主要研究方向
1. 深度生成模型 deep generative model
通過學習現有的資料生成新的資料。
相關研究:
1)otoro.net 學習文字自動生成新的文字
2)deep dream neural art 畫風遷移
3)sequence to sequence learning 從序列到序列的學習 輸入英文,輸出中文;輸入文字,輸出手寫字型等。
4) deep generative adversarial network s深度生成對抗網路以及衍生而來的 dcgan 深度卷積生成對抗網路
5)one shot learning 看一眼影象衍生出其變種,快速感知
2 . 神經圖靈機 neural turing machine
讓計算機能夠學習程式,從而具備推理能力。
相關研究:
iclr 2016 neural programmer-interpreters 通過神經網路解釋程式
3 . 深度增強學習 deep reinforcement learning
使用增強學習實現自學習能力。
openai gym openai的增強學習平台
agent 智慧型體 具備行為能力的物體
state 狀態 觀察observation的集合
action 動作
reward 反饋值
state->action稱為policy 策略
state:s,action:a,policy:π
我們需要找到下列關係(一一對應或者是概率表示): a=
π(s)
或者 π(
a|s)
增強學習的任務是找到乙個最優的policy策略使得reward反饋值最多。
大多數人工智慧研究,包括增強學習的基礎
世界的時間是可以被切分的,且有嚴格的先後順序。
上帝不擲骰子,增強學習的輸入確定,輸出也確定。
馬爾科夫決策過程mdp
mdp基於未來只基於現在的假設,即下乙個狀態僅取決於當前的狀態和當前的動作。
乙個狀態st
是markov當且僅當 p(
st+1
|st)
=p(s
t+1|
st,s
t−1,
...s
1,s0
) 這裡的狀態是上帝視角的狀態。
增強學習的問題都可以模型化為mdp的問題。
乙個基本的mdp可以用(s,a,p)來表示:
s :狀態
a:動作
p:狀態轉移概率,根據當前的狀態st
和at 轉移到st
+1的概率。如果我們知道了轉移概率p,也就是稱為我們獲得了模型model,有了模型,未來就可以求解,那麼獲取最優的動作也就有可能,這種通過模型來獲取最優動作的方法也就稱為model-based的方法。但是現實情況下,很多問題是很難得到準確的模型的,因此就有model-free的方法來尋找最優的動作。
基於mdp,每個狀態都可以用乙個確定的值來表示,所以就可以判斷好壞。狀態的好壞等價於對未來回報的期望。
設回報return為某個時間t時的狀態所將具備的回報。 gt
=rt+
1+λr
t+2+
……=∑
k=0∞
λkrt
+k+1
r: reward反饋值
λ:discount factor折扣因子,一般小於1,就是說一般當下的反饋是比較重要的,時間越久,影響越小。
注意這是某乙個時刻t的狀態所將具備的回報,所以要等整個過程走完,才能算出所有的回報(k是到正無窮的),引出乙個概念 價值函式 value function來解決這個問題,價值函式表示乙個狀態未來的潛在價值,公式:
回到增強學習的目標—-找到乙個最優的policy使得reward最多上來,所以有以下三種方法可以找到最優的policy:
1. 直接優化策略π(
a|s)
或者a=
π(s)
深度增強學習入門筆記(二)
知乎專欄智慧型單元的學習筆記,就真的只是一邊看一邊記的而已,僅為自己學習所用,侵刪。是增強學習領域最重要的乙個方程。使用價值函式進行決策就需要計算這個函式,那怎麼計算呢?bellman方程。簡而言之,bellman方程的作用 表明價值函式是可以迭代進行計算的。將價值函式的公式 a 表示,s代表狀態,...
深度學習入門筆記
之前研討會各種聽老闆和師兄談論deep learning的話題,自己也就聽一聽,這段時間出於了解 的目的仔細研究了一下,感覺內部挺複雜的,不過若只是需要了解原理,其實還比較簡單。深度學習與以往的機器學習方法不同之處在於,它並非是乙個具體的方法或者系統,而僅僅只是乙個理論體系,假設我們有乙個系統s,它...
深度學習筆記(31) 遷移與增強
舉個例子,假如說要建立乙個貓咪檢測器,用來檢測寵物貓 假如兩隻貓叫tigger和misty,還有一種情況是,兩者都不是 所以現在有乙個三分類問題,裡是tigger還是misty,或者都不是 忽略兩隻貓同時出現在一張裡的情況 舉個例子,imagenet資料集,它有1000個不同的類別 因此這個網路會有...