強化學習獎勵和狀態設計

2021-10-22 21:17:49 字數 977 閱讀 7761

1.稀疏獎勵問題

2.獎勵模式化問題

3.獎勵不能太過於全域性化

4.記住一些常用的獎勵設定方式

5,逆向強化學習自動涉及回報函式

6.避免獎勵異常問題(貪婪:來回踱步,膽怯:不敢走,主線獎勵太小,魯莽:懲罰不夠)

7.採用reward shaping(加入勢能項)

首先確定主線獎勵,但只定義主線獎勵的往往都是屬於稀疏回報問題,太難去獲得正樣本,所以需要輔助reward

主線概率難獲得,就要將原始目標分成一系列子目標,也就是常常說的credit assignment,但是要避免喧賓奪主

最好的reward涉及是一超多強****,而且除了主線reward應該提供正向獎勵以外,其他輔助reward最好都設定為懲罰項

1.採用raw information

2.採用提取好的資訊

這裡借鑑(1條訊息) 深度強化學習落地方**(5)——狀態空間篇_wyjjyn的部落格-csdn部落格_強化學習狀態空間中的思想

任務分析

主要是對為了實現最終的目標,所需要的知識,可以站在agent的角度進行分析

相關資訊篩選

神經網路的作用是將原始狀態資訊經過層層非線性提煉後轉化為與長期收益高度關聯的形式,並進一步指導生成action決策,所以要盡量建立起狀態與最終獎勵的聯絡,某個狀態資訊所代表的事件在越短時間內得到反饋,神經網路就越容易學會如何對其進行加工並建立起決策相關性。按照這個反饋時間的長短,我們還可以粗略地將這些相關資訊分為直接相關資訊和間接相關資訊。

直接相關和間接相關組要是由反饋函式定義出來的

直接相關資訊

資訊與匯報函式直接相關,或者它就是由回報函式中某個值組成的.

間接相關資訊

簡介相關資訊指的是無法獲得直接反饋,往往到達最終位置的時候才能獲得相應的反饋

提取出一部分資訊,替神經網路幹一部分活

將資訊拼成向量,將資訊與特定場合脫鉤,比如能用兩個座標之間的距離就不用這兩個座標

深度強化學習 試錯法和獎勵延遲機制

1 疑問 神經網路中對試錯法機制的錯誤理解 神經網路的引數訓練方式是通過試錯法進行的,因為神經網路進行學習就是利用學習過程中的錯誤資訊來更新網路引數的。為什麼這樣理解有問題,還需要自己思考 書中說的是錯誤地理解了試錯法學習的原理和機制 2 強化學習並不是輸入乙個狀態,模型就對映到乙個動作 這是傳統的...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...