深度強化學習 試錯法和獎勵延遲機制

2021-09-26 08:41:42 字數 486 閱讀 9480

1、疑問:

神經網路中對試錯法機制的錯誤理解:

神經網路的引數訓練方式是通過試錯法進行的,因為神經網路進行學習就是利用學習過程中的錯誤資訊來更新網路引數的。

(為什麼這樣理解有問題,還需要自己思考)

書中說的是錯誤地理解了試錯法學習的原理和機制

2、強化學習並不是輸入乙個狀態,模型就對映到乙個動作(這是傳統的機器學習的方法)。強化學習是通過應用這些對映動作,得到一系列的反饋獎勵值,然後從中選出最大獎勵值的那個動作。也就是說,得到乙個狀態到動作的對映還不是結束,只有當應用這個動作得到最終的獎勵值時,才能夠確定到底哪乙個動作才是好的。這相當於一種標籤延後的學習方法。此外,當前狀態採取的動作不僅要影響狀態下得到的獎勵值,還可能會影響周圍環境的狀態,因此也會影響接下來狀態獎勵值。因此強化學習具有兩個明顯的特徵:試驗式求解方式(trial-and-error, 試錯法)和獎勵延遲機制(delayed reward)

《深度強化學習–彭偉》

強化學習獎勵和狀態設計

1.稀疏獎勵問題 2.獎勵模式化問題 3.獎勵不能太過於全域性化 4.記住一些常用的獎勵設定方式 5,逆向強化學習自動涉及回報函式 6.避免獎勵異常問題 貪婪 來回踱步,膽怯 不敢走,主線獎勵太小,魯莽 懲罰不夠 7.採用reward shaping 加入勢能項 首先確定主線獎勵,但只定義主線獎勵的...

深度強化學習

這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...

深度強化學習

一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...