強化學習基礎對偶梯度上公升

作者 | jonathan hui

翻譯 | 史蒂芬•二狗子

校對 | 史蒂芬•二狗子審核| 莫青悠整理 | 菠蘿妹

對偶梯度下降是乙個優化帶約束目標函式的常用方法。在強化學習中，該方法可以幫助我們做出更好的決策。

對偶函式 g 是原始優化問題的下限，實際上，若 f 是凸函式，g和f保持強對偶關係，即g函式的最大值等價於優化問題的最小。只要找到使得g最大的 λ ，我們就解決了原始優化問題。

所以，我們隨機指定 λ 為初始值，使用優化方法解決這個無約束的g(λ)。

視覺化

讓我們想象一下這個演算法是如何工作的。

設 y = g(x)， z = f(x)。y 和 z 在來自於空間 g ，我們畫出了與y對應的z。我們的解是上面的橙色的點：空間 g上的最小f同時滿足g(x)= 0。下面的橙色線是拉格朗日函式。它的斜率等於λ，它接觸g的邊界。

這就是對偶梯度上公升法的工作原理。（ppt）

示例讓我們通過乙個示例來分析如何求解的。

那麼，拉格朗日乘子是什麼？我們可以使用不同d值的等高線圖視覺化f函式。g是約束函式。

對偶梯度下降可以使用任何優化方法來最小化具有λ值的拉格朗日函式。在軌跡優化問題中，我們一般使用的優化方法為ilqr。然後我們應用梯度上公升來調整λ。通過重複迭代可以找到最優解。

盤點影象分類的竅門

動態程式設計：二項式序列

如何用keras來構建lstm模型，並且調參

一文教你如何用pytorch構建 faster rcnn

等你來譯：

如何在神經nlp處理中引用語義結構

你睡著了嗎？不如起來給你的睡眠分個類吧！

高階dqns：利用深度強化學習玩吃豆人遊戲

深度強化學習新趨勢：谷歌如何把好奇心引入強化學習智慧型體

對偶學習與強化學習

參考實際上這個對偶遊戲和強化學習的過程比較類似。在強化學習中，我們希望提高我們的策略以最大化長遠的回報，但是沒有標註的樣本告訴我們在某個狀態x哪個動作y是正確的。我們只有通過使用這個策略在不同的狀態下執行不同的動作，觀測該動作帶來的回報，從而改善我們的策略。在以上這個翻譯對偶遊戲中，兩個翻譯模型就...

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習基礎

mdps簡單來說就是乙個智慧型體 agent 採取行動 action 從而改變自己的狀態 state 來獲取獎勵 reward 與環境 environment 互動的過程。mdps的策略完全取決於當前狀態，這也是馬爾科夫性質的體現。可以簡單的表示為 m a,ps a,r 回報 return u s0...

強化學習基礎 對偶梯度上公升

對偶學習與強化學習

強化學習 強化學習基礎

強化學習基礎

相關推薦

強化學習基礎對偶梯度上公升

強化學習強化學習基礎