強化學習中損失與獎賞的關係

2021-10-08 21:40:38 字數 463 閱讀 5651

這是乙個實踐中普遍遇到的問題,這裡對上面的回答進行翻譯以及個人見解的記錄。

監督學習和強化學習之間的區別在於,監督學習是提供指導性的反饋——損失——來解決問題,而強化學習是提供評估性反饋——獎賞——解決問題。然後我們**損失曲線與強化學習之間的關係。

損失曲線逐漸下降,對於神經網路來說意味著引數的收斂,函式近似趨於穩定,更低的損失意味著對當前策略值的更準確的**。從技術上講,q-learning off-policy的估計更複雜,但收斂性仍將受到當前策略中可獲得的經驗的限制。不幸的是,強化學習中的損失度量不能反映該策略有多好。所以這意味著我們的策略被設定在這樣的乙個模式,在這個模式裡,值可以通過我們使用的神經網路估計。出於某種原因,它不是像通常那樣在損失指標下降之前發現策略的改進,因為每個改善的值估計應該顯示更好的可能的動作,而且一旦那些被乙個新的策略採用,價值估計就會變得過時,然後損失就會再次增加。

探索可能是個問題,這種情況下的「區域性最小值」可能不是神經

強化學習中的熵

主要有一下幾種方式 trpo,ppo方法 都是policy gradient方法和神經網路結合下的變體。使用on policy更新,所得到的梯度是對真實梯度的一階近似,因此需要控制步長在合理範圍,步長大了近似就不準確了。於是,在策略梯度後面增加了kl 散度 相對熵 正則項,目的是控制步長 學習率 1...

對偶學習與強化學習

參考 實際上這個對偶遊戲和強化學習的過程比較類似。在強化學習中,我們希望提高我們的策略以最大化長遠的回報,但是沒有標註的樣本告訴我們在某個狀態x哪個動作y是正確的。我們只有通過使用這個策略在不同的狀態下執行不同的動作,觀測該動作帶來的回報,從而改善我們的策略。在以上這個翻譯對偶遊戲中,兩個翻譯模型就...

強化學習 關於隨機策略梯度法中的損失定義

還是採用神經網路用於狀態和行為概率的非線性擬合 1 隨機策略梯度演算法回顧 如上圖,迭代公式定義為新 舊 alpha 吃驚程度。所謂的吃驚程度是指,根據當前策略依概率選擇了乙個行為,雖然這個行為概率較小,但 log 之後很大,這時候反饋回了乙個獎勵vt,表明這個小概率行為讓決策人很吃驚,接下來要大改...