python原理 強化學習 原理與Python實現

2021-10-10 19:28:49 字數 4275 閱讀 1364

強化學習:原理與python實現

出版日期:2023年08月

檔案大小:17.18m

支援裝置:

¥60.00

適用客戶端:

圖書簡介

目錄全書分為三個部分。第一部分了解強化學習應用,了解強化學習基本知識,搭建強化學習測試環境。該部分包括:強化學習的概況、強化學習簡單示例、強化學習演算法的常見思想、強化學習的應用、強化學習測試環境的搭建。第二部分介紹強化學習理論與深度強化學習演算法。強化學習理論部分:markov決策過程的數學描述、monte carlo方法和時序差分方法的數學理論;深度強化學習演算法部分:詳細剖析全部具有重要影響力的深度強化學習演算法,結合tensorflow實現原始碼。第三部分介紹強化學習綜合應用案例。

前言第1章 初識強化學習

1.1 強化學習及其關鍵元素

1.2 強化學習的應用

1.3 智慧型體/環境介面

1.4 強化學習的分類

1.4.1 按任務分類

1.4.2 按演算法分類

1.5 如何學習強化學習

1.5.1 學習路線

1.5.2 學習資源

1.6 案例:基於gym庫的智慧型體/環境互動

1.6.1 安裝gym庫

1.6.2 使用gym庫

1.6.3 小車上山

1.7 本章小結

第2章 markov決策過程

2.1 markov決策過程模型

2.1.1 離散時間markov決策過程

2.1.2 環境與動力

2.1.3 智慧型體與策略

2.1.4 獎勵、回報與價值函式

2.2 bellman期望方程

2.3 最優策略及其性質

2.3.1 最優策略與最優價值函式

2.3.2 bellman最優方程

2.3.3 用bellman最優方程求解最優策略

2.4 案例:懸崖尋路

2.4.1 實驗環境使用

2.4.2 求解bellman期望方程

2.4.3 求解bellman最優方程

2.5 本章小結

第3章 有模型數值迭代

3.1 度量空間與壓縮對映

3.1.1 度量空間及其完備性

3.1.2 壓縮對映與bellman運算元

3.1.3 banach不動點定理

3.2 有模型策略迭代

3.2.1 策略評估

3.2.2 策略改進

3.2.3 策略迭代

3.3 有模型價值迭代

3.4 動態規劃

3.4.1 從動態規劃看迭代演算法

3.4.2 非同步動態規劃

3.5 案例:冰面滑行

3.5.1 實驗環境使用

3.5.2 有模型策略迭代求解

3.5.3 有模型價值迭代求解

3.6 本章小結

第4章 回合更新價值迭代

4.1 同策回合更新

4.1.1 同策回合更新策略評估

4.1.2 帶起始探索的同策回合更新

4.1.3 基於柔性策略的同策回合更新

4.2 異策回合更新

4.2.1 重要性取樣

4.2.2 異策回合更新策略評估

4.2.3 異策回合更新最優策略求解

4.3 案例:21點遊戲

4.3.1 實驗環境使用

4.3.2 同策策略評估

4.3.3 同策最優策略求解

4.3.4 異策策略評估

4.3.5 異策最優策略求解

4.4 本章小結

第5章 時序差分價值迭代

5.1 同策時序差分更新

5.1.1 時序差分更新策略評估

5.1.2 sarsa演算法

5.1.3 期望sarsa演算法

5.2 異策時序差分更新

5.2.1 基於重要性取樣的異策演算法

5.2.2 q學習

5.2.3 雙重q學習

5.3 資格跡

5.3.1 λ回報

5.3.2 td(λ)

5.4 案例:計程車排程

5.4.1 實驗環境使用

5.4.2 同策時序差分學習排程

5.4.3 異策時序差分學習排程

5.4.4 資格跡學習排程

5.5 本章小結

第6章 函式近似方法

6.1 函式近似原理

6.1.1 隨機梯度下降

6.1.2 半梯度下降

6.1.3 帶資格跡的半梯度下降

6.2 線性近似

6.2.1 精確查詢表與線性近似的關係

6.2.2 線性最小二乘策略評估

6.2.3 線性最小二乘最優策略求解

6.3 函式近似的收斂性

6.4 深度q學習

6.4.1 經驗回放

6.4.2 帶目標網路的深度q學習

6.4.3 雙重深度q網路

6.4.4 對偶深度q網路

6.5 案例:小車上山

6.5.1 實驗環境使用

6.5.2 用線性近似求解最優策略

6.5.3 用深度q學習求解最優策略

6.6 本章小結

第7章 回合更新策略梯度方法

7.1 策略梯度演算法的原理

7.1.1 函式近似與動作偏好

7.1.2 策略梯度定理

7.2 同策回合更新策略梯度演算法

7.2.1 簡單的策略梯度演算法

7.2.2 帶基線的簡單策略梯度演算法

7.3 異策回合更新策略梯度演算法

7.4 策略梯度更新和極大似然估計的關係

7.5 案例:車杆平衡

7.5.1 同策策略梯度演算法求解最優策略

7.5.2 異策策略梯度演算法求解最優策略

7.6 本章小結

8.2 基於**優勢的同策演算法

8.2.1 **優勢

8.2.2 鄰近策略優化

8.3 信任域演算法

8.3.1 kl散度

8.3.2 信任域

8.3.3 自然策略梯度演算法

8.3.4 信任域策略優化

8.4.1 基本的異策演算法

8.4.2 帶經驗回放的異策演算法

8.5.1 熵

8.5.2 獎勵工程和帶熵的獎勵

8.6 案例:雙節倒立擺

8.7 本章小結

第9章 連續動作空間的確定性策略

9.1 同策確定性演算法

9.1.1 策略梯度定理的確定性版本

9.2 異策確定性演算法

9.2.2 深度確定性策略梯度演算法

9.2.3 雙重延遲深度確定性策略梯度演算法

9.3 案例:倒立擺的控制

9.3.1 用深度確定性策略梯度演算法求解

9.3.2 用雙重延遲深度確定性演算法求解

9.4 本章小結

第10章 綜合案例:電動遊戲

10.1 atari遊戲環境

10.1.1 gym庫的完整安裝

10.1.2 遊戲環境使用

10.2 基於深度q學習的遊戲ai

10.2.1 演算法設計

10.2.2 智慧型體的實現

10.2.3 智慧型體的訓練和測試

10.3 本章小結

第11章 綜合案例:棋盤遊戲

11.1 雙人確定性棋盤遊戲

11.1.1 五子棋和井字棋

11.1.2 黑白棋

11.1.3 圍棋

11.2 alphazero演算法

11.2.1 回合更新樹搜尋

11.2.2 深度殘差網路

11.2.3 自我對弈

11.2.4 演算法流程

11.3 棋盤遊戲環境boardgame2

11.3.1 為gym庫擴充套件自定義環境

11.3.2 boardgame2設計

11.3.3 gym環境介面的實現

11.3.4 樹搜尋介面的實現

11.4 alphazero演算法實現

11.4.1 智慧型體類的實現

11.4.2 自我對弈的實現

11.4.3 訓練智慧型體

11.5 本章小結

第12章 綜合案例:自動駕駛

12.1 airsim開發環境使用

12.1.1 安裝和執行airsim

12.1.2 用python訪問airsim

12.2 基於強化學習的自動駕駛

12.2.1 為自動駕駛設計強化學習環境

12.2.2 智慧型體設計和實現

12.2.3 智慧型體的訓練和測試

12.3 本章小結

強化學習原理 劉建平 目錄

文章 強化學習 一 模型基礎 強化學習 二 馬爾科夫決策過程 mdp 無強化學習 三 用動態規劃 dp 求解 無強化學習 四 用蒙特卡羅法 mc 求解 無強化學習 五 用時序差分法 td 求解無 強化學習 七 時序差分離線控制演算法q learning 強化學習 八 價值函式的近似表示與deep q...

強化學習原理學習記錄(1)2020 10 07

1.強化學習要解決的問題 智慧型決策問題。更確切地說是序貫決策問題,序貫決策就是 需要連續不斷地做出決策,才能實現最終 標的問題。2.強化學習如何解決問題 強化學習要解決的是序貫決策問題,它不關 輸 什麼樣,只關 當前輸 下應該採 什麼動作才能實現最終的 標,當前採 什麼動作與最終的 標有關。也就是...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...