強化學習知識總結(一)

2021-08-25 02:20:28 字數 1112 閱讀 5427

本篇主要是對這段時間以來我在科學網上發的一些強化學習相關的文章進行乙個大彙總(sutton書1-8章內容)。作為對強化學習tabular方法的乙個簡單指導性的目錄,本篇也會提供之前討論過的強化學習中的經典問題實現的**與相關的圖表分析的原始檔。

k-level

markov

例項:

1. dp-programming - bandit問題

2. dp-programming - gridworld

3. recycling robot

4. jack『s rental car

5. gambler's problem

monte carlo

例項:

1. soap bubble

2. black jack

3. infinite variance

4. monty hall problem

5. race track

td methods

例項:

1. cliff gridworld

2. random walk

3. windy gridworld

room problem & maze problem

例項:

1. room problem

2. maze berrier

3. dyna-q

強化學習知識總結

參考文章 研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。model free就是不去學習和理解環境,環境給出什麼資訊就是什...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習框架總結

設定,重新經歷 強化學習 rl 框架包含學習與其環境互動的智慧型體。在每個時間步,智慧型體都收到環境的狀態 環境向智慧型體呈現一種情況 智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵 環境表示智慧型體是否對該狀態做出了正確的響應 和新的狀態。所有智慧型體的目標都是最大化預期累積獎...