強化學習隨記

智慧型體:相當於alphago

狀態：當前智慧型體所處的乙個狀態。

獎勵：每一步行為之後都會有乙個結果，對不同的結果都會有乙個獎勵的值，如果你學習了我給你乙個獎勵，如果你打球了(沒學習)我就給你乙個懲罰。每一步操作都會有乙個衡量的指標，來指明這一步操作是對還是不對。

策略：首先在當前的乙個環境下，已經看清楚了現在的狀態，然後你會有乙個目標，對alphago來說最終你想贏。我們會先制定一系列的策略，比如對現在這個狀態，我按照什麼樣的一系列的動作組合，能使得我最終能獲勝，得到最大的獎勵值。

當前有乙個狀態，還有乙個最終的目標，我達到了最終目標我就可以得到這個獎勵，沒有達到我就得不到這個獎勵。

先觀察看下當前狀態如何，在當前狀態下我先選擇乙個行動，不合適就繼續嘗試，每次行動都嘗試不同的方向，總會試出乙個方向會使得最終的結果獎勵值最大。即哪一步走法會使得最終的獎勵值最大，那我就走這樣一步。

狀態我們可以寫成乙個集合，每走一步都有乙個狀態，這一系列的狀態組成這麼乙個經驗集合，每個狀態相當於經驗值。

agent每走一步就會達到乙個新的環境，在新的環境當中看下當前的獎勵如何。

往左或者往右走完，我們會算一下當前的狀態，可以通過杆的角度和速度來算得當前杆是傾斜還是不傾斜。

折扣係數：我們做乙個動作，不只是會對當前狀態有影響，還會對之後的狀態都會有影響。對之後狀態有影響是說影響了這些狀態得到的獎勵。折扣係數就表示著我雖然現在做了乙個動作，對當下有獎勵的同時可能也會對之後的狀態獎勵有影響，當下的獎勵會比未來的獎勵更重要一些，比如說當下的獎勵折扣係數為1，那麼未來帶來的獎勵折扣係數就為0.8或0.6等等

未來回報的期望就表示著：在當前狀態下，可以得到最終的結果或者說平均結果是什麼樣的，它是乙個期望值。

累計獎勵的期望是指：把當下和未來全部狀態的獎勵都算在一起得到的乙個值。價值函式：是某一策略(某一種狀態-動作對)下得到的值，。最優價值函式：因為狀態-動作對會有很多，對所有這些進行累計的結果。

動作空間和狀態空間都是有限的才能去計算。

vπ：最終的價值函式。

vπ(s)：當前狀態獲得的期望。

強化學習隨記

強化學習強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習系列1 強化學習簡介

強化學習隨記

強化學習 強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習系列1 強化學習簡介

相關推薦

強化學習強化學習基礎