第一章 強化學習概述

2021-10-25 00:22:45 字數 2086 閱讀 2972

強化學習討論的問題是乙個 智慧型體(agent) 怎麼在乙個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。示意圖由兩部分組成:agent 和 environment。在強化學習過程中,agent 跟 environment 一直在互動。agent 在環境裡面獲取到狀態,agent 會利用這個狀態輸出乙個 action,乙個決策。然後這個決策會放到環境之中去,環境會通過這個 agent 採取的決策,輸出下乙個狀態以及當前的這個決策得到的獎勵。agent 的目的就是為了盡可能多地從環境中獲取獎勵。

強化學習(reinforcement learning):agent可以在與複雜且不確定的environment進行互動時,嘗試使所獲得的reward最大化的計算演算法。

action: environment接收到的agent當前狀態的輸出。

state:agent從environment中獲取到的狀態。

reward:agent從environment中獲取的反饋訊號,這個訊號指定了agent在某一步採取了某個策略以後是否得到獎勵。

exploration:在當前的情況下,繼續嘗試新的action,其有可能會使你得到更高的這個獎勵,也有可能使你一無所有。

exploitation:在當前的情況下,繼續嘗試已知的可以獲得最大reward的過程,即重複執行這個 action 就可以了。

深度強化學習(deep reinforcement learning):不需要手工設計特徵,僅需要輸入state讓系統直接輸出action的乙個end-to-end training的強化學習方法。通常使用神經網路來擬合 value function 或者 policy network。

full observability、fully observed和partially observed:當agent的狀態跟environment的狀態等價的時候,我們就說現在environment是full observability(全部可觀測),當agent能夠觀察到environment的所有狀態時,我們稱這個環境是fully observed(完全可觀測)。一般我們的agent不能觀察到environment的所有狀態時,我們稱這個環境是partially observed(部分可觀測)。

pomdp(partially observable markov decision processes):部分可觀測馬爾可夫決策過程,即馬爾可夫決策過程的泛化。pomdp 依然具有馬爾可夫性質,但是假設智慧型體無法感知環境的狀態 ss,只能知道部分觀測值 oo。

action space(discrete action spaces and continuous action spaces):在給定的environment中,有效動作的集合經常被稱為動作空間(action space),agent的動作數量是有限的動作空間為離散動作空間(discrete action spaces),反之,稱為連續動作空間(continuous action spaces)。

policy-based(基於策略的):agent會制定一套動作策略(確定在給定狀態下需要採取何種動作),並根據這個策略進行操作。強化學習演算法直接對策略進行優化,使制定的策略能夠獲得最大的獎勵。

valued-based(基於價值的):agent不需要制定顯式的策略,它維護乙個價值**或價值函式,並通過這個價值**或價值函式來選取價值最大的動作。

model-based(有模型結構):agent通過學習狀態的轉移來採取措施。

model-free(無模型結構):agent沒有去直接估計狀態的轉移,也沒有得到environment的具體轉移變數。它通過學習 value function 和 policy function 進行決策。

強化學習的基本結構是什麼?

強化學習相對於監督學習為什麼訓練會更加困難?(強化學習的特徵)

強化學習的基本特徵有哪些?

近幾年強化學習發展迅速的原因?

狀態和觀測有什麼關係?

對於乙個強化學習 agent,它由什麼組成?

根據強化學習 agent 的不同,我們可以將其分為哪幾類?

基於策略迭代和基於價值迭代的強化學習方法有什麼區別?

有模型(model-based)學習和免模型(model-free)學習有什麼區別?

強化學習的通俗理解

第一章 初始強化學習

例項 小車上山 步驟1,獲取環境物件 env gym.make mountaincar v0 print 觀測空間 format env.observation space print 動作空間 format env.action space print 觀測範圍 format env.observ...

Oracle強化 第一章 PL SQL概述

1.員工表中員工的人數輸出到螢幕 2.建立臨時表temp,字段 char store varchar2 35 date store date建立匿名塊,1 把兩個變數 this is my first pl sql program current date插入到表中 2 10號部門員工姓名,參加工作...

第一章 概述

1.模擬量輸入,輸出,開關量 閃爍 輸入,輸出及資料通訊 2.模擬量大多為開關量 3.mcu前做為前端採集器,mcu 感測器 4.開發步驟 1 i o分析 2 mcu造型 3 評估系統及相關硬體 4 設計硬體系統 5 硬體系統模組測試 6 軟體系統設計 7 系統測試 8 進一步工作 5.交叉編譯 6...