強化學習的DDPG

2021-10-06 23:24:13 字數 633 閱讀 9792

**鏈結

處理連續動作空間下,引數過多,運算過於複雜的問題。

想象一下,乙個機械人每個時間步有7個動作,如腿、胳膊等各個關節。你可以調整的是每個部位對應電機的電壓。先簡單看作每個動作有3個動作狀態,,那麼每個時間步就對應有37=

2187

3^7=2187

37=218

7個動作空間。如果將k這個數字更細粒度劃分的話,動作空間將會非常龐大。

因此,面對這樣的情況,ddpg提出了新的方法。其關鍵在於改變策略函式。

**引入了乙個新的策略函式μθ(

a∣s)

\mu_\theta(a|s)

μθ​(a∣

s)來代替原本的πθ(

a∣s)

\pi_\theta(a|s)

πθ​(a∣

s) πθ(

a∣s)

\pi_\theta(a|s)

πθ​(a∣

s)將給定的狀態,對映到所有動作的動作分布

μ θ(

a∣s)

\mu_\theta(a|s)

μθ​(a∣

s)將給定的狀態,直接對映為乙個動作

顯而易見提高了效率

參考

強化學習 之 DDPG

1 強化學習 ddpg deep deterministic policy gradient 演算法詳解 2 deep reinforcement learning 1.ddpg原理和演算法 pg dpg ddpg描述 3 深度強化學習 綱要 概括總結 deep deterministic poli...

強化學習之SAC和DDPG內容大彙總

最前沿 深度解讀soft actor critic 演算法 pytorch 彙總 ddpg ac sac ppo sac github中pytorch soft actor critic 閱讀及pytorch 實現 資訊熵 深度強化學習 ddpg演算法原理和實現 ddpg解決pendulum v0問...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...