學習筆記強化學習基礎

1.強化學習的基本結構是什麼？

本質上是強化學習agent和environment間的互動。agent從environment中獲取狀態（state），然後輸出乙個action，這個action會加入到environment中，並使得environment輸出乙個新的state和action得到的reward。agent在environment中存在的目的就是為了使得積累的reward極大化。

2.強化學習相對於監督學習為什麼訓練會更加困難？（強化學習的特徵）

延遲獎勵：監督學習agent在做出每乙個action後，都能立即得到乙個反饋，如果採取的行為是錯誤的話，還會給出正確的決定；而強化學習卻不能，如果它的agent做出了乙個錯誤的action，有時候可以立即得到指引，說它這個action是錯誤的，但不能得到正確的action，更難的是，做出的action要等到一段時間後才能知道這個行為行不行。

3.強化學習的基本特徵有哪些？

4.近幾年強化學習發展迅速的原因？

有了更多的計算能力，更多的gpu，可以更快的做更多的試錯（trail-and-error）的嘗試

通過這種不同嘗試使得agent在這個環境裡獲得更多的資訊，得到更多的reward

我們有了這個端到端的乙個訓練，可以把特徵提取和價值估計或者決策一塊來優化，這樣就可以得到乙個更強的決策網路

5.觀測和狀態有什麼關係？

6.對於乙個強化學習agent，它由什麼組成？

7.根據強化學習agent的不同，我們可以將其分為幾類？

8.基於策略迭代和基於價值迭代的強化學習方法有什麼區別？

9.有模型（model-based）和免模型（model-free）有什麼區別？

10.強化學習的通俗理解

學習筆記強化學習基礎

強化學習強化學習基礎

強化學習基礎

強化學習學習筆記

學習筆記 強化學習基礎

強化學習 強化學習基礎

強化學習基礎

強化學習 學習筆記

相關推薦

學習筆記強化學習基礎

強化學習強化學習基礎

強化學習學習筆記