強化學習的DDPG

**鏈結

處理連續動作空間下，引數過多，運算過於複雜的問題。

想象一下，乙個機械人每個時間步有7個動作，如腿、胳膊等各個關節。你可以調整的是每個部位對應電機的電壓。先簡單看作每個動作有3個動作狀態，，那麼每個時間步就對應有37=

2187

3^7=2187

37=218

7個動作空間。如果將k這個數字更細粒度劃分的話，動作空間將會非常龐大。

因此，面對這樣的情況，ddpg提出了新的方法。其關鍵在於改變策略函式。

**引入了乙個新的策略函式μθ(

a∣s)

\mu_\theta(a|s)

μθ(a∣

s)來代替原本的πθ(

a∣s)

\pi_\theta(a|s)

πθ(a∣

s) πθ(

a∣s)

\pi_\theta(a|s)

πθ(a∣

s)將給定的狀態，對映到所有動作的動作分布

μ θ(

a∣s)

\mu_\theta(a|s)

μθ(a∣

s)將給定的狀態，直接對映為乙個動作

顯而易見提高了效率

參考

強化學習之 DDPG

1 強化學習 ddpg deep deterministic policy gradient 演算法詳解 2 deep reinforcement learning 1.ddpg原理和演算法 pg dpg ddpg描述 3 深度強化學習綱要概括總結 deep deterministic poli...

強化學習之SAC和DDPG內容大彙總

最前沿深度解讀soft actor critic 演算法 pytorch 彙總 ddpg ac sac ppo sac github中pytorch soft actor critic 閱讀及pytorch 實現資訊熵深度強化學習 ddpg演算法原理和實現 ddpg解決pendulum v0問...

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習的DDPG

強化學習 之 DDPG

強化學習之SAC和DDPG內容大彙總

強化學習 強化學習基礎

相關推薦

強化學習之 DDPG

強化學習強化學習基礎