第一章強化學習概述

強化學習討論的問題是乙個智慧型體(agent) 怎麼在乙個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。示意圖由兩部分組成：agent 和 environment。在強化學習過程中，agent 跟 environment 一直在互動。agent 在環境裡面獲取到狀態，agent 會利用這個狀態輸出乙個 action，乙個決策。然後這個決策會放到環境之中去，環境會通過這個 agent 採取的決策，輸出下乙個狀態以及當前的這個決策得到的獎勵。agent 的目的就是為了盡可能多地從環境中獲取獎勵。

強化學習（reinforcement learning）：agent可以在與複雜且不確定的environment進行互動時，嘗試使所獲得的reward最大化的計算演算法。

action: environment接收到的agent當前狀態的輸出。

state：agent從environment中獲取到的狀態。

reward：agent從environment中獲取的反饋訊號，這個訊號指定了agent在某一步採取了某個策略以後是否得到獎勵。

exploration：在當前的情況下，繼續嘗試新的action，其有可能會使你得到更高的這個獎勵，也有可能使你一無所有。

exploitation：在當前的情況下，繼續嘗試已知的可以獲得最大reward的過程，即重複執行這個 action 就可以了。

深度強化學習（deep reinforcement learning）：不需要手工設計特徵，僅需要輸入state讓系統直接輸出action的乙個end-to-end training的強化學習方法。通常使用神經網路來擬合 value function 或者 policy network。

full observability、fully observed和partially observed：當agent的狀態跟environment的狀態等價的時候，我們就說現在environment是full observability（全部可觀測），當agent能夠觀察到environment的所有狀態時，我們稱這個環境是fully observed（完全可觀測）。一般我們的agent不能觀察到environment的所有狀態時，我們稱這個環境是partially observed（部分可觀測）。

pomdp（partially observable markov decision processes）：部分可觀測馬爾可夫決策過程，即馬爾可夫決策過程的泛化。pomdp 依然具有馬爾可夫性質，但是假設智慧型體無法感知環境的狀態 ss，只能知道部分觀測值 oo。

action space（discrete action spaces and continuous action spaces）：在給定的environment中，有效動作的集合經常被稱為動作空間（action space），agent的動作數量是有限的動作空間為離散動作空間（discrete action spaces），反之，稱為連續動作空間（continuous action spaces）。

policy-based（基於策略的）：agent會制定一套動作策略（確定在給定狀態下需要採取何種動作），並根據這個策略進行操作。強化學習演算法直接對策略進行優化，使制定的策略能夠獲得最大的獎勵。

valued-based（基於價值的）：agent不需要制定顯式的策略，它維護乙個價值**或價值函式，並通過這個價值**或價值函式來選取價值最大的動作。

model-based（有模型結構）：agent通過學習狀態的轉移來採取措施。

model-free（無模型結構）：agent沒有去直接估計狀態的轉移，也沒有得到environment的具體轉移變數。它通過學習 value function 和 policy function 進行決策。

強化學習的基本結構是什麼？

強化學習相對於監督學習為什麼訓練會更加困難？（強化學習的特徵）

強化學習的基本特徵有哪些？

近幾年強化學習發展迅速的原因？

狀態和觀測有什麼關係？

對於乙個強化學習 agent，它由什麼組成？

根據強化學習 agent 的不同，我們可以將其分為哪幾類？

基於策略迭代和基於價值迭代的強化學習方法有什麼區別?

有模型（model-based）學習和免模型（model-free）學習有什麼區別？

強化學習的通俗理解

第一章強化學習概述

第一章初始強化學習

Oracle強化第一章 PL SQL概述

第一章概述

第一章 強化學習概述

第一章 初始強化學習

Oracle強化 第一章 PL SQL概述

第一章 概述

相關推薦

第一章強化學習概述

第一章初始強化學習

Oracle強化第一章 PL SQL概述

第一章概述