深度強化學習試錯法和獎勵延遲機制

1、疑問：

神經網路中對試錯法機制的錯誤理解：

神經網路的引數訓練方式是通過試錯法進行的，因為神經網路進行學習就是利用學習過程中的錯誤資訊來更新網路引數的。

(為什麼這樣理解有問題，還需要自己思考)

書中說的是錯誤地理解了試錯法學習的原理和機制

2、強化學習並不是輸入乙個狀態，模型就對映到乙個動作(這是傳統的機器學習的方法)。強化學習是通過應用這些對映動作，得到一系列的反饋獎勵值，然後從中選出最大獎勵值的那個動作。也就是說，得到乙個狀態到動作的對映還不是結束，只有當應用這個動作得到最終的獎勵值時，才能夠確定到底哪乙個動作才是好的。這相當於一種標籤延後的學習方法。此外，當前狀態採取的動作不僅要影響狀態下得到的獎勵值，還可能會影響周圍環境的狀態，因此也會影響接下來狀態獎勵值。因此強化學習具有兩個明顯的特徵：試驗式求解方式(trial-and-error, 試錯法)和獎勵延遲機制(delayed reward)

《深度強化學習–彭偉》

深度強化學習 試錯法和獎勵延遲機制

強化學習獎勵和狀態設計

深度強化學習

深度強化學習

相關推薦

深度強化學習試錯法和獎勵延遲機制