Chapter 1 什麼是強化學習？

強化學習的具體場景：決策**人agent與所在環境environment互動，決策人想要在不確定性環境下實現目標，決策人的行為會影響未來的環境狀態，從而影響決策人以後可以採取的行動和機會。正確的選擇需要考慮到行動的延遲後果，因此可能需要具有預見性。

但是決策人行動的效果無法完全**，因此，必須經常監控其環境並做出適當的反應。決策人可以使用其經驗來改善其決策。

除了agent和environment之外，強化學習系統還有四個主要子元素：策略，獎勵訊號，價值函式，以及可選的環境模型。

策略：agent在給定時間的行為方式。簡單來說，就是從感知的環境狀態到在這些狀態下要採取的行動的對映。

獎勵訊號（reward signal）：強化學習問題的目標。通常，獎勵訊號是環境狀態和所採取的動作的隨機函式。

價值函式（value function）：獎勵訊號表示短期的直接好處，而價值函式則表示長期利益。

強化學習是一種理解和自動化以目標導向的學習和決策的計算方法。它與其他計算方法的區別在於它強調**人通過與環境的直接互動來學習，而不需要示例性監督或完整的環境模型。

強化學習使用馬爾可夫決策過程的正式框架來定義**人與其環境之間在狀態、行為和獎勵方面的互動。

價值函式對於策略空間中的有效搜尋非常重要，價值函式將強化學習方法與直接在政策空間中搜尋的進化方法區分開來。

該部分以最簡單的形式描述了強化學習演算法的幾乎所有核心思想：狀態和動作空間足夠小，以便將近似值函式表示為陣列或表。在這種情況下，這些方法通常可以找到最佳的價值函式和最優政策。

該部分包括6個章節

***問題

有限馬爾可夫決策過程中處理的一般問題公式及其主要思想

解決有限馬爾可夫決策問題方法——動態規劃

解決有限馬爾可夫決策問題方法——蒙特卡洛方法

解決有限馬爾可夫決策問題方法——時間差分學習

蒙特卡洛與時間差分學習結合

動態規劃與時間差分學習結合

其中，解決有限馬爾可夫決策問題的三種方法都各有優劣：動態規劃方法在數學上得到了很好的發展，但需要乙個完整而準確的環境模型；蒙特卡羅方法不需要模型，並且在概念上很簡單，但不適合逐步增量計算；時間差分方法不需要模型，完全是遞增的，但分析起來更複雜。

這與本書下一部分中描述的近似方法形成對比，後者只能找到近似解，但作為回報，它可以有效地應用於更大的問題。