DRL學習第一課 結構梳理和理清概念

2021-10-08 07:31:13 字數 2519 閱讀 6705

近期在忙乙個比較重要的專案, 做到機械人快速避障,正在努力學習和更新中.

深度強化學習(deep reinforcement learning)強化學習是機器學習的乙個分支, 相較於機器學習經典的有監督學習, 無監督學習問題, 強化學習的最大的特點是在互動中學習(learning from interaction).

agent在與環境的互動中根據獲得獎勵或懲罰不斷的學習知識, 更加適應環境.

rl學習的正規化非常類似於我們人類學習知識的過程, 也正因此, rl被視為實現通用ai重要途徑.

"名詞解釋"

獎勵: 單次執行行為的好壞評價標量;

價值函式: 評價一段時間內行為"好壞", 用來**未來積累的獎勵**;

環境(model): 用來模擬環境的行為;

智慧型體(agent):

"智慧型體分類1"

基於模型的強化學習.

模型無關的強化學習.

"智慧型體分類2"

基於價值函式, 無策略

基於策略函式, 無價值

基於actor-critic(策略+價值函式).

" 概念掃盲和知識點梳理"

"1. 基本概念"

強化學習:通過從互動中學習來實現目標的計算方法。

互動過程:在每一步t,智慧型體:獲得觀察o_t,獲得獎勵r_t,執行行動a_t,環境:獲得行動a_t,給出觀察o_,給出獎勵r_

歷史(history): 是觀察、獎勵、行動的序列,即一直到時間t為止的所有可觀測變數。

狀態(state): 是一種用於確定接下來會發生的事情(a,r,o),狀態是關於歷史的函式。

狀態通常是整個環境的, 觀察可以理解為是狀態的一部分,僅僅是agent可以觀察到的那一部分。

策略(policy): 是學習智慧型體在特定時間的行為方式。是從狀態到行為的對映。

確定性策略: 函式表示,隨機策略:條件概率表示

獎勵(reward): 立即感知到什麼是好的,一般情況下就是乙個標量

價值函式(value function): 長期而言什麼是好的

價值函式是對於未來累計獎勵的**,用於評估給定策略下,狀態的好壞

"2. 強化學習智慧型體的分類"

model-based rl:模型可以被環境所知道,agent可以直接利用模型執行下一步的動作,而無需與實際環境進行互動學習。

比如:圍棋、迷宮

model_free rl:真正意義上的強化學習,環境是黑箱

比如atari遊戲,需要大量的取樣

基於價值:沒有策略(隱含)、價值函式

基於策略:策略、沒有價值函式

actor-critic:策略、價值函式

[2] a2c / a3c (asynchronous advantage actor-critic): mnih et al, 2016

[3] ppo (proximal policy optimization): schulman et al, 2017

[4] trpo (trust region policy optimization): schulman et al, 2015

[5] ddpg ddpg (deep deterministic policy gradient): lillicrap et al, 2015

[6] td3 (twin delayed ddpg): fujimoto et al, 2018

[7] sac (soft actor-critic): haarnoja et al, 2018

[8] dqn (deep q-networks): mnih et al, 2013

[9] c51 (categorical 51-atom dqn): bellemare et al, 2017

[10] qr-dqn (quantile regression dqn): dabney et al, 2017

[11] her (hindsight experience replay): andrychowicz et al, 2017

[12] world models : ha and schmidhuber, 2018

[13] i2a (imagination-augmented agents): weber et al, 2017

[14] mbmf (model-based rl with model-free fine-tuning): nagabandi et al, 2017

[15] mbve (model-based value expansion): feinberg et al, 2018

[16] alphazero alphazero: silver et al, 2017

機器學習第一課

過擬合就是,通過訓練集進行訓練的時候,模型學習了太多的背景雜訊,讓模型的複雜度高於了真實模型 比如看到齒距型的葉子,就覺得不是葉子 欠擬合是指,模型在訓練集上進行學習的時候,效果就不是很好,沒有充分學習到其中的資訊量,複雜度低於真實模型,得到的模型泛化能力差 比如看到綠色,就覺得是葉子 模型評估指標...

python學習第一課

1.單行注釋 2.或 多行注釋運算子的型別運算子的優先順序運算子tips 參考變數型別 算術運算子 print 1 1 2,加 print 2 1 1,減 print 3 4 12,乘 print 3 4 0.75,除 print 3 4 0,整除 地板除 print 3 4 3,取餘 print ...

學習Appium第一課

腦子不用確實是會生鏽的,三年沒有去學習。我差點忘了自己曾經是計算機專業畢業的,配置個chromedrive花了半天,細思極恐。說說自己入的坑吧。簡單到不能簡單的步驟。2 將該路徑新增到系統環境變數path下 認識到這個問題後重新安裝了32位瀏覽器,沒有重啟 ps 可能出現下圖兩種問題,這是chrom...