強化學習例子

迷宮尋寶遊戲

我們這裡有乙個最簡單的2*2的迷宮，左上角為起點（1），右下角為寶藏（4），要提防的就是左下角的陷阱（3）。作為高智商物種，我們一眼就可以看出來最優路徑就是1-2-4，而對於計算機則不然，他剛開始對這些沒有任何的概念，這些資訊都要它自己探索獲得，或者我們直接把環境資訊構建好告訴他。

在上面這個例子中，我們要設計獎懲規則，比如，我們的目標是最少步驟內拿到寶貝同時還要避免掉坑（陷阱）裡去，所以呢我們把每走一步獎賞設為-1，掉坑里的話獎勵他-10，拿到寶貝的話獎勵+10。單純的定個獎懲規則還不夠，我們還要告訴機器這邊尋寶地形情況是怎樣情況的，在每個狀態可以有哪些行動，然後每個行動又會走到**去等等，這些都需要我們事先定義好！所以我就感覺這一開始就是一件工作量很大的事情，而且一般情況下將某個具體的環境轉化成為計算機能理解的資訊（例如通過向量，矩陣或者神經網路，它們都是乙個具體或者抽象的對應形式）也不是一件容易的事情。anyway，具體的轉換方法會在後邊**中顯示，我們move on ！

3.q-learning演算法：

這裡，你只需要知道這個所謂的q-learning只是強化學習中在探尋最優策略時候所用的眾多演算法中的一種……類似的還有價值迭代，策略迭代等，以後會逐步涉及。q-learning的基本步驟如下：

第一步（1）初始化q-table矩陣，在上邊例子中，我們有四個狀態（s1，s2，s3，s4），然後在每個狀態都有五中行動方式（上，下，左，右，不動），所以呢，這個q-table就是乙個45的矩陣，行為四個狀態，列為五種行動方式。最開始呢，電腦是沒有任何概念的，認為這些狀態和行動都沒啥區別，數值表現都是0。

（2）除了初始化q-table，我們還要把遊戲的規則說明白了，即定義獎賞機制，就是那個走一步-1，掉坑里-10，拿到寶貝+10的規則，我們也要通過矩陣（45）表示出來。

（3）另外還有遊戲的地形是怎樣的，即哪個狀態下執行某個動作後會進入哪個新狀態。

2.第二步

針對每乙個episode（一次從開始到結束的過程），選擇起始state。在這裡的話我們是從左上角state1開始，就是確定的了，可能以後更高階的是隨機選吧。選擇當前state下的乙個可能的action，目前這裡邊就用相同概率去做選擇，複雜一點的選不同action的概率可以不一樣。（如貪心演算法）。

作為上步action的結果，轉移到下乙個狀態s』

再次基於目前狀態s』去選擇乙個行動a』

使用bellmanequation（貝爾曼方程）更新q-table。這裡提到貝爾曼方程，這是什麼鬼？這可以說是q-learning的乙個核心了。其方程如下：q(s,a)=r+γ(max(q(s′,a′))其中，s:當前狀態state；a:從當前狀態下，採取的行動action；s』:今次行動所產生的新一輪state；a』:次回action；r:本次行動的獎勵reward，是進到乙個狀態馬上就能獲得的獎勵；γ：折扣因數，表示對長遠利益的看重程度，其中0表示只看重下一步獎勵（目光短淺），1表示看重整體的獎勵情況（目光長遠）。

將進入的下乙個狀態設為當前狀態，不斷迭代

如果達到目標狀態，結束演算法。

強化學習例子

強化學習強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習系列1 強化學習簡介

強化學習例子

強化學習 強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習系列1 強化學習簡介

相關推薦

強化學習強化學習基礎