強化學習基礎 對偶梯度上公升

2021-09-19 18:24:00 字數 1553 閱讀 9415

作者 | jonathan hui

翻譯 | 史蒂芬•二狗子

校對 | 史蒂芬•二狗子       審核| 莫青悠      整理 | 菠蘿妹

對偶梯度下降是乙個優化帶約束目標函式的常用方法。在強化學習中,該方法可以幫助我們做出更好的決策。

對偶函式 g 是原始優化問題的下限,實際上,若 f 是凸函式,g和f保持強對偶關係,即g函式的最大值等價於優化問題的最小。只要找到使得g最大的 λ ,我們就解決了原始優化問題。

所以,我們隨機指定 λ 為初始值,使用優化方法解決這個無約束的g(λ)。

視覺化

讓我們想象一下這個演算法是如何工作的。

設 y = g(x), z = f(x)。y 和 z 在來自於空間 g ,我們畫出了與y對應的z。我們的解是上面的橙色的點: 空間 g上的最小f同時滿足g(x)= 0。下面的橙色線是拉格朗日函式。它的斜率等於λ,它接觸g的邊界 。

這就是對偶梯度上公升法的工作原理。(ppt)

示例 讓我們通過乙個示例來分析如何求解的。

那麼,拉格朗日乘子是什麼?我們可以使用不同d值的等高線圖視覺化f函式。g是約束函式。

對偶梯度下降可以使用任何優化方法來最小化具有λ值的拉格朗日函式。在軌跡優化問題中,我們一般使用的優化方法為ilqr。然後我們應用梯度上公升來調整λ。通過重複迭代可以找到最優解。

盤點影象分類的竅門

動態程式設計:二項式序列

如何用keras來構建lstm模型,並且調參

一文教你如何用pytorch構建 faster rcnn

等你來譯:

如何在神經nlp處理中引用語義結構 

你睡著了嗎?不如起來給你的睡眠分個類吧! 

高階dqns:利用深度強化學習玩吃豆人遊戲

深度強化學習新趨勢:谷歌如何把好奇心引入強化學習智慧型體 

對偶學習與強化學習

參考 實際上這個對偶遊戲和強化學習的過程比較類似。在強化學習中,我們希望提高我們的策略以最大化長遠的回報,但是沒有標註的樣本告訴我們在某個狀態x哪個動作y是正確的。我們只有通過使用這個策略在不同的狀態下執行不同的動作,觀測該動作帶來的回報,從而改善我們的策略。在以上這個翻譯對偶遊戲中,兩個翻譯模型就...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習基礎

mdps簡單來說就是乙個智慧型體 agent 採取行動 action 從而改變自己的狀態 state 來獲取獎勵 reward 與環境 environment 互動的過程。mdps的策略完全取決於當前狀態,這也是馬爾科夫性質的體現。可以簡單的表示為 m a,ps a,r 回報 return u s0...