強化學習的具體場景:決策**人agent與所在環境environment互動,決策人想要在不確定性環境下實現目標,決策人的行為會影響未來的環境狀態,從而影響決策人以後可以採取的行動和機會。正確的選擇需要考慮到行動的延遲後果,因此可能需要具有預見性。
但是決策人行動的效果無法完全**,因此,必須經常監控其環境並做出適當的反應。決策人可以使用其經驗來改善其決策。
除了agent和environment之外,強化學習系統還有四個主要子元素:策略,獎勵訊號,價值函式,以及可選的環境模型。
策略:agent在給定時間的行為方式。 簡單來說,就是從感知的環境狀態到在這些狀態下要採取的行動的對映。
獎勵訊號(reward signal):強化學習問題的目標。 通常,獎勵訊號是環境狀態和所採取的動作的隨機函式。
價值函式(value function):獎勵訊號表示短期的直接好處,而價值函式則表示長期利益。
強化學習是一種理解和自動化以目標導向的學習和決策的計算方法。它與其他計算方法的區別在於它強調**人通過與環境的直接互動來學習,而不需要示例性監督或完整的環境模型。
強化學習使用馬爾可夫決策過程的正式框架來定義**人與其環境之間在狀態、行為和獎勵方面的互動。
價值函式對於策略空間中的有效搜尋非常重要,價值函式將強化學習方法與直接在政策空間中搜尋的進化方法區分開來。
該部分以最簡單的形式描述了強化學習演算法的幾乎所有核心思想:狀態和動作空間足夠小,以便將近似值函式表示為陣列或表。在這種情況下 ,這些方法通常可以找到最佳的價值函式和最優政策。
該部分包括6個章節
***問題
有限馬爾可夫決策過程中處理的一般問題公式及其主要思想
解決有限馬爾可夫決策問題方法——動態規劃
解決有限馬爾可夫決策問題方法——蒙特卡洛方法
解決有限馬爾可夫決策問題方法——時間差分學習
蒙特卡洛與時間差分學習結合
動態規劃與時間差分學習結合
其中,解決有限馬爾可夫決策問題的三種方法都各有優劣:動態規劃方法在數學上得到了很好的發展,但需要乙個完整而準確的環境模型;蒙特卡羅方法不需要模型,並且在概念上很簡單,但不適合逐步增量計算;時間差分方法不需要模型,完全是遞增的,但分析起來更複雜。
這與本書下一部分中描述的近似方法形成對比,後者只能找到近似解,但作為回報,它可以有效地應用於更大的問題。
強化學習1 什麼是強化學習
強化學習 reinforcement learning,rl 一般也稱作增強學習,和心理學 動物行為的研究等領域有比較久的淵源。心理學中,強化 指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時 比方說猴子 訓導員首先會發出某種指令 比方說抬一下手...
初識強化學習,什麼是強化學習?
相信很多人都聽過 機器學習 和 深度學習 但是聽過 強化學習 的人可能沒有那麼多,那麼,什麼是強化學習呢?強化學習是機器學習的乙個子領域,它可以隨著時間的推移自動學習到最優的策略。在我們不斷變化的紛繁複雜的世界裡,從更廣的角度來看,即使是單純的靜態的輸入 輸出型問題也會變成動態的問題。例如,對於乙個...
chapter 14 強化學習
以上是乙個強化學習的標準模型,其邏輯為環境 environment 給出狀態 state 智慧型體 agent 按照狀態做出動作 action 環境根據動作給予反饋 reward 並更新狀態。持續這一流程,直到外界干預或達到目標。我們可以用馬爾可夫決策 markov property 來描述這個模型...