強化學習一步動態特性

使用數學記法表示環境動態比較方便。在此部分，我們將介紹這一記法（可以用於任何強化學習任務），並使用**機械人作為講解示例。

在隨機時間步 t，智慧型體環境互動變成一系列的狀態、動作和獎勵。

(s0,a0,r1,s1,a1,…,rt−1,st−1,at−1,rt,st,at)

當環境在時間步 t+1 對智慧型體做出響應時，它只考慮上乙個時間步 (st,at) 的狀態和動作。

尤其是，它不關心再上乙個時間步呈現給智慧型體的狀態。（換句話說，環境不考慮任何）

並且，它不考慮智慧型體在上個時間步之前採取的動作。（換句話說，環境不考慮任何）

此外，智慧型體的表現如何，或收集了多少獎勵，對環境選擇如何對智慧型體做出響應沒有影響。（換句話說，環境不考慮任何）

因此，我們可以通過指定以下設定完全定義環境如何決定狀態和獎勵

p(s′,r∣s,a)≐p(st+1=s′,rt+1=r∣st=s,at=a)

對於每個可能的 s′,r,s,and a。這些條件概率用於指定環境的一步動態特性

乙個示例

我們回顧下 st=high at=search 的情況。

下個時間步是電量很高的概率為 70%，獎勵為 4。換句話說，p(high,4∣high,search)=p(st+1=high,rt+1=4∣st=high,at=search)=0.7
下個時間步是電量很低的概率為 30%，獎勵為 4。換句話說，p(low,4∣high,search)=p(st+1=low,rt+1=4∣st=high,at=search)=0.3

一步一步學Ruby 十七 Ruby動態特性

ruby中的一切都是動態的，例如，我們可以在程式執行時，動態的新增方法，類等。前面我們已經看到了ruby的動態特性，例如給單個物件新增方法，重新開啟類等。如果熟悉rails，就知道activerecord提供基於資料庫表的欄位名的方法。每乙個欄位都有乙個方法，這個就依賴於ruby的動態特性。一單...

一步一步學Ruby 十七 Ruby動態特性

強化學習篇強化學習案例詳解一

一前述本文通過乙個案例來講解q learning 二具體 1 案例假設我們需要走到5房間。轉變為如下圖先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設定成100，沒有達到5說明獎勵比較低，設定成0。q learning實現步驟 2 案例詳解第一步的q 1,5 最開始的q矩...

強化學習一步動態特性

一步一步學Ruby 十七 Ruby動態特性

一步一步學Ruby 十七 Ruby動態特性

強化學習篇 強化學習案例詳解一

相關推薦

強化學習篇強化學習案例詳解一