強化學習知識總結

2021-10-09 12:08:36 字數 976 閱讀 2661

參考文章

研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。

model-free就是不去學習和理解環境,環境給出什麼資訊就是什麼資訊,常見的方法有policy optimization和q-learning。

model-based是去學習和理解環境,學會用乙個模型來模擬環境,通過模擬的環境來得到反饋。model-based比model-free多了模擬環境,通過模擬環境預判接下來會發生的所有情況,然後選擇最佳的情況。

policy-based的方法直接輸出下一步動作的概率,根據概率來選取動作。但不一定概率最高就會選擇該動作,還是會從整體進行考慮。適用於非連續和連續的動作。常見的方法有policy gradients。

value-based的方法輸出的是動作的價值,選擇價值最高的動作。適用於非連續的動作。常見的方法有q-learning和sarsa。

離線學習(off-policy)指的是既可以自己參與其中,也可以根據他人學習過程進行學習。典型的方法是q-learning,已經deep-q-network。

π (s

)→a\pi(s)\rightarrow a

π(s)→a

根據當前 state 來產生 action,可表現為a=π

(s)a=\pi(s)

a=π(s)

或π (a

∣s)=

p(a∣

s)\pi(a|s)=p\left ( a|s \right )

π(a∣s)

=p(a

∣s),後者表示某種狀態下執行某個動作的概率。

參考文章

強化學習知識總結(一)

本篇主要是對這段時間以來我在科學網上發的一些強化學習相關的文章進行乙個大彙總 sutton書1 8章內容 作為對強化學習tabular方法的乙個簡單指導性的目錄,本篇也會提供之前討論過的強化學習中的經典問題實現的 與相關的圖表分析的原始檔。k level markov 例項 1.dp program...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習框架總結

設定,重新經歷 強化學習 rl 框架包含學習與其環境互動的智慧型體。在每個時間步,智慧型體都收到環境的狀態 環境向智慧型體呈現一種情況 智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵 環境表示智慧型體是否對該狀態做出了正確的響應 和新的狀態。所有智慧型體的目標都是最大化預期累積獎...