強化學習知識總結

參考文章

研一接觸了強化學習，然後對其就產生了很大的興趣。雖然有在莫煩python上學習，也自己做過很簡單的專案，但是之前對rl的學習比較混亂並不系統。正好看到這篇文章，感覺對自己有很大的幫助，就根據作者列出的知識點進行擴充套件學習。

model-free就是不去學習和理解環境，環境給出什麼資訊就是什麼資訊，常見的方法有policy optimization和q-learning。

model-based是去學習和理解環境，學會用乙個模型來模擬環境，通過模擬的環境來得到反饋。model-based比model-free多了模擬環境，通過模擬環境預判接下來會發生的所有情況，然後選擇最佳的情況。

policy-based的方法直接輸出下一步動作的概率，根據概率來選取動作。但不一定概率最高就會選擇該動作，還是會從整體進行考慮。適用於非連續和連續的動作。常見的方法有policy gradients。

value-based的方法輸出的是動作的價值，選擇價值最高的動作。適用於非連續的動作。常見的方法有q-learning和sarsa。

離線學習（off-policy）指的是既可以自己參與其中，也可以根據他人學習過程進行學習。典型的方法是q-learning，已經deep-q-network。

π (s

)→a\pi(s)\rightarrow a

π(s)→a

根據當前 state 來產生 action，可表現為a=π

(s)a=\pi(s)

a=π(s)

或π (a

∣s)=

p(a∣

s)\pi(a|s)=p\left ( a|s \right )

π(a∣s)

=p(a

∣s)，後者表示某種狀態下執行某個動作的概率。

參考文章