基於模型的強化學習

（1）在model-based rl裡，雖然學習mdp模型可以提高強化學習的效率，但是如果模型誤差較大可能導致學不到較好的策略，這個問題一般怎麼解決？

如果模型學習的不夠精準，那就只能用很短很短的rollout來做planning。例如q-planning就是1步的rollout，這樣並不能特別高的提公升sample efficiency。

如果模型比較準，那就可以用model-based policy optimization (mbpo)這種方法去做一定長度(k-step)的rollout，這樣能進一步提高sample efficiency。

（2）基於模型的強化學習與模型無關的強化學習

基於模型的強化學習（model based），一種是mdp，根據價值迭代或者策略迭代求解。另外一種是，一開始環境未知，通過和環境互動的經驗，把這個未知的環境變成乙個近似已知的mdp，再用價值迭代或者策略迭代求解。

模型無關的強化學習（model free），通過和環境互動的經驗，直接學得每個狀態或者狀態-動作的價值函式，或者直接學得乙個策略函式，整個過程並沒有把環境求解出來。

2019 5 13 基於模型的強化學習方法

注寫作四項工作看懂一篇工作二提出難點問題，提出新概念。例多光譜注意力機制工作三修改演算法，網路結構損失函式步數基於模型的的強化學習是比無模型難很多的問題。一狀態轉移概率 1 馬氏決策過程可以利用五元組 s,a,p,r,y 來描述。根據狀態轉移概率是否已知，可以分為基於模型和...

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習筆記 3 1 基於模型的動態規劃方法

深入淺出強化學習原理入門學習筆記 3.基於模型的動態規劃方法首先解釋一下什麼是有模型和無模型，馬爾科夫決策過程用元組表示是 s,a,p,r,big s,a,p,r,gamma big s,a,p r,s ss為有限狀態集,a aa為有限動作集，p pp是狀態轉移概率包含動作 r rr為回報函式，g...

基於模型的強化學習

2019 5 13 基於模型的強化學習方法

強化學習 強化學習基礎

強化學習筆記 3 1 基於模型的動態規劃方法

相關推薦

強化學習強化學習基礎