強化學習獎勵和狀態設計

1.稀疏獎勵問題

2.獎勵模式化問題

3.獎勵不能太過於全域性化

4.記住一些常用的獎勵設定方式

5，逆向強化學習自動涉及回報函式

6.避免獎勵異常問題（貪婪：來回踱步，膽怯：不敢走，主線獎勵太小，魯莽：懲罰不夠）

7.採用reward shaping（加入勢能項）

首先確定主線獎勵，但只定義主線獎勵的往往都是屬於稀疏回報問題，太難去獲得正樣本，所以需要輔助reward

主線概率難獲得，就要將原始目標分成一系列子目標，也就是常常說的credit assignment，但是要避免喧賓奪主

最好的reward涉及是一超多強****,而且除了主線reward應該提供正向獎勵以外，其他輔助reward最好都設定為懲罰項

1.採用raw information

2.採用提取好的資訊

這裡借鑑(1條訊息) 深度強化學習落地方**（5）——狀態空間篇_wyjjyn的部落格-csdn部落格_強化學習狀態空間中的思想

任務分析

主要是對為了實現最終的目標，所需要的知識，可以站在agent的角度進行分析

相關資訊篩選

神經網路的作用是將原始狀態資訊經過層層非線性提煉後轉化為與長期收益高度關聯的形式，並進一步指導生成action決策，所以要盡量建立起狀態與最終獎勵的聯絡，某個狀態資訊所代表的事件在越短時間內得到反饋，神經網路就越容易學會如何對其進行加工並建立起決策相關性。按照這個反饋時間的長短，我們還可以粗略地將這些相關資訊分為直接相關資訊和間接相關資訊。

直接相關和間接相關組要是由反饋函式定義出來的

直接相關資訊

資訊與匯報函式直接相關，或者它就是由回報函式中某個值組成的.

間接相關資訊

簡介相關資訊指的是無法獲得直接反饋，往往到達最終位置的時候才能獲得相應的反饋

提取出一部分資訊，替神經網路幹一部分活

將資訊拼成向量，將資訊與特定場合脫鉤，比如能用兩個座標之間的距離就不用這兩個座標

強化學習獎勵和狀態設計

深度強化學習試錯法和獎勵延遲機制

強化學習強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習獎勵和狀態設計

深度強化學習 試錯法和獎勵延遲機制

強化學習 強化學習基礎

強化學習 1 1 0 強化學習介紹

相關推薦

深度強化學習試錯法和獎勵延遲機制

強化學習強化學習基礎