增強學習訓練AI玩遊戲

符號a為 ai agent。

符號@為金幣，ai agent需要盡可能的接取。

符號* 為炸彈，ai agent需要盡可能的躲避。

遊戲下方一組數字含義如下：

bomb hit: 代表目前ai agent所接取的炸彈數。

coin hit: 代表目前ai agent所接取的金幣數。

game play：每幀會隨機產生乙個炸彈和乙個金幣，或者只產生乙個炸彈或金幣。每幀ai agent可以行動一次，以及所有的炸彈和金幣下降一格。

當金幣和炸彈到最後一格時會自動消失，此時不在參與ai agent碰撞。

學習種類: 增強學習又稱強化學習

學習細節：q演算法 + 值函式線性（引數）逼近，如果您還不知啥麼是q演算法，啥麼是值函式，啥麼又是線性引數逼近。那麼我推薦您先看看一下資源。

a painless q-learning tutorial (乙個 q-learning 演算法的簡明教程)

q-learning toturial

然後，我來給你講講什麼是線性引數逼近。我們由淺入深，先**一下向量。在2維空間中，我們可以用兩個正交的二維基向量i,j來任意二維向量v。寫作v= x*i+y*j; 我們只需調整x，y，也就是調整基向量的權重引數，就可以表示不同的向量。同理，n維空間，我們也可以用n個正交的n維基向量表示任意n維向量。那麼需要調整的權重也會相應的增加到n個。回到函式的問題，我們是否可以用類似的方式，用n個基函式的和來表示乙個復合函式，並且通過修改每個函式的權重引數來表示不同的復合函式。很明顯，答案是可以的。那麼現在的問題是如何調整這些權重，使它表達的復合函式更接近我的目標函式？

進一步對於強化學習來說，我們不知道目標函式的具體樣子。我們通過不斷的實驗得知函式的輸入輸出模式為 in:a0 out:b0； in:a1 out:b1.......

所以我們要建立乙個函式f，使其的輸入輸出與我們的目標函式的輸入輸出匹配即可。完美的匹配所有輸入輸出怕是找不到，退而求其次，我們去尋找平均情況下最好的匹配，即允許建構函式f與目標函式t某些輸入與輸出存在差異，但總體上差距最小。在這裡我們使用隨機梯度下降。

q(s, a)

= φ(s, a)t

θ （θ

是有多個權重構成的向量，我們要不斷調整θ, φ(s, a)t

則為基函式，返回值為向量

）c =1/2(q+(s, a) - q(s, a))2

=1/2 (q+(s, a) - φ(s, a)t

θ)2∂c/∂θ = -φ(s, a)(q+(s, a) - φ(s, a)t

θ).

θ ← θ + β φ(s, a)(q+(s, a) - q(s, a)) β

為調整步長。

game state:

本文 ai agent 採取對其上方4*3區域進行二進位制編碼。0代表空位置，1代表空間被bomb或coin佔據。那麼4*3區域需要24bit的資料來表示coin 和 bomb，以本文為例，前12位代表bomb後12位**coin。相同位置的bomb和coin可以同時為0，代表既沒有bomb也麼有coin，但不能同時為1，即二者不可重疊。

對其進行二進位制編碼的好處為可以把state抽象成為乙個int數值，大大了減少了描述state所需的空間。當然監測區域越大狀態空間就越大，那麼agent就越智慧型。

game action:

左移，右移，不動。

feature base φ(s, a

）：用於描述當前狀態特徵的基函式，在程式中它不返回乙個12維向量，而是增加引數i，代表獲取第幾個特徵，函式輸入為狀態s和指令a，特徵函式φ(s, a，i)

的返回值取值範圍為 -1，0，1。

φ(s, a)的計算需要使用當前的狀態s 和當下要執行的action。

feature base weight θ

：θ也是12維向量，用以表示feature base中不同元素的權重。

q value:

q(s, a) = φ(s, a)t

θ, 這裡是向量的點積，乘積的和。

本遊戲採用值函式線性引數化逼近，對動作狀態值函式q(s, a)進行

線性引數話逼近。值函式近似多用於求解連續狀態集或大規模狀態集。因為state或action太多無法全部儲存，所以需要抽象出乙個函式，函式的引數為state和 action ，返回值為其分數。

最後我們的q值函式可表示為：

q(s, a) = φ(s, a)t

θ，更新權重法則為：θ ← θ + β φ(s, a)(q+(s, a) - q(s, a)),

對於本文給出的小遊戲，簡單的使用隨機梯度下降法可以對動作狀態值函式進行線性近似。並可以取得較好的效果。

相關**，已上傳

需要的同學請自行獲取。

研究機器學習只是筆者的業餘愛好，故本文使用的最基本的強化學習演算法，如有錯誤請耐心指正。如果讀者想要進一步深入學習，不妨了解一下google deepmind的各種dqn，openal剛剛出新的強化學習演算法ppo。這些新的強化學習演算法從效率和效果都有很大提高。當然，具體研究起來肯定是很複雜的，有興趣的讀者自己去研究吧。

作為乙個遊戲開發者，在適當的地方使用機器學習是很好的選擇。謹記，我們做遊戲是為了讓玩家開心，不是為了讓ai吊打玩家。至於人工智慧學者總愛拿遊戲做例子，一是為了方便向民間傳播研究進度，刷存在感，拉投資。二是某些遊戲的狀態空間確實比較複雜。比如搞搞圍棋，搞搞dota2，搞搞星際2。

增強學習訓練AI玩遊戲

如何玩遊戲

她玩遊戲好都不准我玩遊戲了我們可以玩遊戲嗎？

英語單詞玩遊戲

增強學習訓練AI玩遊戲

如何玩遊戲

她玩遊戲好都不准我玩遊戲了 我們可以玩遊戲嗎？

英語單詞玩遊戲

相關推薦

她玩遊戲好都不准我玩遊戲了我們可以玩遊戲嗎？